Zixing-GOU/TEG-DB

Name: Zixing-GOU/TEG-DB
Creator: Zixing-GOU
Published: 2024-06-19 12:39:05
License: 暂无描述

Hugging Face2024-06-19 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Zixing-GOU/TEG-DB

下载链接

链接失效反馈

官方服务：

资源简介：

TEG-DB是一个包含多个数据集的基准数据集，这些数据集具有丰富的文本边信息。数据集包括用户-书评网络、引文网络、购物网络和社交网络（如Reddit和Twitter）。每个网络都有不同类型的节点和边，并且包含了丰富的文本信息，如书评、引文上下文、产品评论和社交媒体内容。数据集的文件结构包括原始数据、处理后的数据以及生成的文本嵌入。README还提供了如何加载原始数据、生成图数据以及下载和处理数据的脚本。

提供机构：

Zixing-GOU

原始信息汇总

TEG-DB 数据集概述

TEG-DB 是一个包含丰富文本边数据的数据集基准。

文件结构

dataset_name/
- raw/
  - dataset.pkl: 处理后的图数据，格式为 .pkl。
- processed/
  - download_data.sh: 下载原始数据的脚本。
  - data_processing.py: 将原始数据处理成 .pkl 格式的脚本。
  - instructions.txt: 使用脚本的说明。
- embeddings/
  - text_embeddings.pt: 从原始数据生成的文本嵌入。

使用方法

加载原始数据

python import pickle with open(data/raw/dataset.pkl, rb) as f: data = pickle.load(f)

生成图数据

用户可以根据自己的需求生成图数据，可以使用提供的处理方法或基于这些方法创建自己的图数据。

数据下载

bash bash dataset_name/processed/download_data.sh

数据处理

bash python dataset_name/processed/dataset_processing.py

图结构和属性

用户-书籍评论网络（Goodreads）

text_nodes: 节点类型，包括用户、书籍和流派（共十种类型）。
nodes_text: 每本书的摘要。
edge_index: 所有边的节点索引对。
text_edges: 用户和书籍之间的评论，即边的文本信息。

引文网络

text_nodes: 论文标题。
text_node_labels: 每篇论文的类别。
edge_index: 所有边的节点索引对。
text_edges: 引文信息，如引文上下文、引文段落等。

购物网络（Amazon）

text_nodes: 节点类型，包括用户和产品（ASIN）。
edge_index: 所有边的节点索引对。
text_edges: 用户和产品之间的评论。
node_texts: 产品的摘要。
text_node_labels: 产品的类别。

社交网络（Reddit 和 Twitter）

Twitter

text_nodes: 用户节点的文本为 "user"，推文节点的文本为实际推文内容。
text_edges: 用户-用户边的文本为推文内容，用户-推文边的文本为空字符串。
node_labels: 所有节点的标签。用户节点标记为 -1，推文节点标记为事件 ID（如 1 和 2）。
edge_labels: 所有边的标签。用户-用户边标记为推文的事件 ID（如 1 和 2），用户-推文边标记为 -1。
edge_index: 所有边的节点索引对。

text_nodes: 子版块节点的文本为子版块名称，用户节点的文本为用户标签。
text_edges: 子版块-用户边的文本为 Reddit 评论。
node_labels: 所有节点的标签。子版块节点标记为 -1，用户节点标记为是否为任何 Reddit 社区的版主（0 或 1）。
edge_score_labels: 所有边的分数。评论的分数为赞成票减去反对票。
edge_special_labels: 所有边的二进制标签。普通评论标记为 0，杰出评论（由社区版主发送）标记为 1。
edge_index: 所有边的节点索引对。

5,000+

优质数据集

54 个

任务类型

进入经典数据集