five

DTGB

收藏
github2024-06-14 更新2024-06-22 收录
下载链接:
https://github.com/zjs123/DTGB
下载链接
链接失效反馈
官方服务:
资源简介:
DTGB提供了一个综合基准数据集,包含八个动态文本属性图,用于研究和分析动态文本属性图的特性和应用。

DTGB provides a comprehensive benchmark dataset containing eight dynamic text-attributed graphs, which is intended for researching and analyzing the characteristics and applications of dynamic text-attributed graphs.
创建时间:
2024-05-30
原始信息汇总

DTGB: A Comprehensive Benchmark for Dynamic Text-Attributed Graphs

数据集

DTGB提供了八个动态文本属性图数据集,可以从这里下载。

数据格式

每个图数据集包含三个文件:

  • edge_list.csv: 存储每条边的信息,格式为 (u, v, r, t, l),其中 u 是源实体的ID,v 是目标实体的ID,r 是关系的ID,t 是边的发生时间戳,l 是边的标签。
  • entity_text.csv: 存储实体ID与实体文本描述的映射。
  • relation_text.csv: 存储关系ID与关系文本描述的映射。

使用方法

  1. 下载数据集后,应将其解压缩到 DyLink_Datasets 文件夹中。
  2. 运行 get_pretrained_embeddings.py 获取基于Bert的节点和边文本嵌入,分别保存为 e_feat.npyr_feat.npy
  3. 运行 get_LLM_data.ipynb 获取文本关系生成任务的训练和测试集,分别保存为 LLM_train.pklLLM_test.pkl

结果复现

未来链接预测任务

  • GDELT 数据集上训练 DyGFormer 模型,不使用文本属性的示例: bash python train_link_prediction.py --dataset_name GDELT --model_name DyGFormer --patch_size 2 --max_input_sequence_length 64 --num_runs 5 --gpu 0 --use_feature no

  • GDELT 数据集上训练 DyGFormer 模型,使用文本属性的示例: bash python train_link_prediction.py --dataset_name GDELT --model_name DyGFormer --patch_size 2 --max_input_sequence_length 64 --num_runs 5 --gpu 0 --use_feature Bert

  • 测试集的 APAUC-ROC 指标将自动保存到 saved_resuts/DyGFormer/GDELT/DyGFormer_seed0no.json

  • 最佳检查点将保存到 saved_resuts/DyGFormer/GDELT/ 文件夹中。

目标节点检索任务

在获得未来链接预测任务的最佳检查点后,可以通过运行以下命令复现目标节点检索任务的 Hits@k 指标: bash python evaluate_node_retrieval.py --dataset_name GDELT --model_name DyGFormer --patch_size 2 --max_input_sequence_length 64 --negative_sample_strategy random --num_runs 5 --gpu 0 --use_feature no

  • negative_sample_strategy 参数控制候选采样策略,可以是 randomhistorical
  • use_feature 参数控制是否使用基于Bert的嵌入,可以是 noBert

边分类任务

  • GDELT 数据集上训练 DyGFormer 模型,不使用文本属性的示例: bash python train_edge_classification.py --dataset_name GDELT --model_name DyGFormer --patch_size 2 --max_input_sequence_length 64 --num_runs 5 --gpu 0 --use_feature no

  • 测试集的 PrecisionRecallF1-score 指标将自动保存到 saved_resuts/DyGFormer/GDELT/edge_classification_DyGFormer_seed0no.json

文本关系生成任务

在获得 LLM_train.pklLLM_test.pkl 文件后,可以通过运行以下命令复现原始LLMs的性能: bash python LLM_eval.py -config_path=LLM_configs/vicuna_7b_qlora_uncensored.yaml -model=raw

  • 可以通过 config_path 参数更改LLMs。
  • 生成的文本将保存到 s_his_o_des_his_result_vicuna7b.pkl

然后,可以通过更改 LLM_metric.py 中的文件路径并运行以下命令获取 Bert_score 指标: bash python LLM_metric.py

如果需要微调LLMs,可以运行: bash python LLM_train.py LLM_configs/vicuna_7b_qlora_uncensored.yaml

然后通过运行以下命令复现微调后LLMs的性能: bash python LLM_eval.py -config_path=LLM_configs/vicuna_7b_qlora_uncensored.yaml -model=lora

搜集汇总
数据集介绍
main_image_url
构建方式
DTGB数据集的构建基于动态文本属性图(Dynamic Text-Attributed Graphs),涵盖了八个不同的图结构。每个图通过三个文件进行保存:edge_list.csv记录了图中的每条边,包括源实体、目标实体、关系、时间戳和边的标签;entity_text.csv和relation_text.csv分别存储了实体和关系的文本描述。这种结构化的数据存储方式确保了数据的完整性和可访问性,为后续的分析和模型训练提供了坚实的基础。
特点
DTGB数据集的显著特点在于其动态性和文本属性的结合。首先,数据集中的图结构是动态的,能够捕捉到随时间变化的关系和实体状态。其次,每个实体和关系都附有详细的文本描述,这为基于文本的分析和模型提供了丰富的信息。此外,数据集的多样性体现在其包含的八个不同图结构,涵盖了多种应用场景,使得研究者可以在不同情境下验证和优化模型。
使用方法
使用DTGB数据集时,首先需下载并解压缩数据至指定文件夹。随后,通过运行get_pretrained_embeddings.py脚本,可以获取基于Bert的节点和边文本嵌入,这些嵌入将分别保存为e_feat.npy和r_feat.npy。此外,运行get_LLM_data.ipynb脚本可生成用于文本关系生成任务的训练和测试集,分别保存为LLM_train.pkl和LLM_test.pkl。这些步骤为后续的模型训练和评估提供了必要的数据准备。
背景与挑战
背景概述
DTGB数据集,全称为Dynamic Text-Attributed Graphs Benchmark,是由Zhang, Jiasheng等研究人员在2024年创建的,旨在为动态文本属性图提供一个全面的基准。该数据集的核心研究问题是如何在动态文本属性图上进行有效的链接预测、节点检索和边分类等任务。DTGB的发布对图神经网络和自然语言处理领域具有重要影响,特别是在处理具有时间属性和文本描述的复杂图结构时,为研究人员提供了一个标准化的测试平台。
当前挑战
DTGB数据集在构建过程中面临多个挑战。首先,动态文本属性图的数据结构复杂,涉及时间戳、文本描述等多维信息,如何高效地存储和处理这些信息是一个主要挑战。其次,数据集的多样性和规模要求高效的算法和模型来处理,特别是在链接预测和节点检索任务中,模型的性能和计算效率需要平衡。此外,文本属性与图结构的结合增加了模型的复杂性,如何在保持高精度的同时减少计算成本是一个持续的研究问题。
常用场景
经典使用场景
DTGB数据集在动态文本属性图(DyTAG)的研究中展现了其经典应用场景。该数据集通过提供丰富的动态文本属性图,支持未来链接预测、目标节点检索、边分类以及文本关系生成等多项任务。例如,在未来的链接预测任务中,研究人员可以利用DTGB数据集训练DyGFormer模型,通过调整是否使用文本属性来评估模型的性能。此外,目标节点检索任务中,DTGB数据集的高效性使得研究人员能够精确地检索到目标节点,从而提升图分析的准确性。
衍生相关工作
DTGB数据集的发布催生了多项相关研究工作。首先,基于DTGB数据集,研究人员开发了多种图神经网络模型,如DyGFormer,用于处理动态文本属性图。其次,该数据集促进了大规模语言模型在图数据上的应用,推动了文本关系生成任务的研究。此外,DTGB数据集还激发了新的图数据预处理方法和评估指标的开发,为动态图分析提供了更为丰富的工具和方法。这些衍生工作不仅扩展了DTGB数据集的应用范围,也为动态图领域的研究提供了新的视角和方法。
数据集最近研究
最新研究方向
在动态文本属性图(Dynamic Text-Attributed Graphs, DTGB)领域,最新的研究方向主要集中在如何有效整合文本信息与图结构数据,以提升图神经网络在动态环境下的表现。具体而言,研究者们致力于开发能够处理时间序列数据和文本属性的新型图神经网络模型,如DyGFormer,以实现更精准的未来链接预测、目标节点检索和边分类任务。此外,利用预训练语言模型(如BERT)生成节点和边的文本嵌入,进一步增强了模型的表达能力。这些研究不仅推动了图神经网络在实际应用中的性能提升,也为跨领域的知识融合提供了新的思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作