Zixing-GOU/TEG-DB
收藏Hugging Face2024-06-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Zixing-GOU/TEG-DB
下载链接
链接失效反馈官方服务:
资源简介:
TEG-DB是一个包含多个数据集的基准数据集,这些数据集具有丰富的文本边信息。数据集包括用户-书评网络、引文网络、购物网络和社交网络(如Reddit和Twitter)。每个网络都有不同类型的节点和边,并且包含了丰富的文本信息,如书评、引文上下文、产品评论和社交媒体内容。数据集的文件结构包括原始数据、处理后的数据以及生成的文本嵌入。README还提供了如何加载原始数据、生成图数据以及下载和处理数据的脚本。
TEG-DB是一个包含多个数据集的基准数据集,这些数据集具有丰富的文本边信息。数据集包括用户-书评网络、引文网络、购物网络和社交网络(如Reddit和Twitter)。每个网络都有不同类型的节点和边,并且包含了丰富的文本信息,如书评、引文上下文、产品评论和社交媒体内容。数据集的文件结构包括原始数据、处理后的数据以及生成的文本嵌入。README还提供了如何加载原始数据、生成图数据以及下载和处理数据的脚本。
提供机构:
Zixing-GOU
原始信息汇总
TEG-DB 数据集概述
TEG-DB 是一个包含丰富文本边数据的数据集基准。
文件结构
dataset_name/raw/dataset.pkl: 处理后的图数据,格式为.pkl。
processed/download_data.sh: 下载原始数据的脚本。data_processing.py: 将原始数据处理成.pkl格式的脚本。instructions.txt: 使用脚本的说明。
embeddings/text_embeddings.pt: 从原始数据生成的文本嵌入。
使用方法
加载原始数据
python import pickle with open(data/raw/dataset.pkl, rb) as f: data = pickle.load(f)
生成图数据
用户可以根据自己的需求生成图数据,可以使用提供的处理方法或基于这些方法创建自己的图数据。
数据下载
bash bash dataset_name/processed/download_data.sh
数据处理
bash python dataset_name/processed/dataset_processing.py
图结构和属性
用户-书籍评论网络(Goodreads)
text_nodes: 节点类型,包括用户、书籍和流派(共十种类型)。nodes_text: 每本书的摘要。edge_index: 所有边的节点索引对。text_edges: 用户和书籍之间的评论,即边的文本信息。
引文网络
text_nodes: 论文标题。text_node_labels: 每篇论文的类别。edge_index: 所有边的节点索引对。text_edges: 引文信息,如引文上下文、引文段落等。
购物网络(Amazon)
text_nodes: 节点类型,包括用户和产品(ASIN)。edge_index: 所有边的节点索引对。text_edges: 用户和产品之间的评论。node_texts: 产品的摘要。text_node_labels: 产品的类别。
社交网络(Reddit 和 Twitter)
text_nodes: 用户节点的文本为 "user",推文节点的文本为实际推文内容。text_edges: 用户-用户边的文本为推文内容,用户-推文边的文本为空字符串。node_labels: 所有节点的标签。用户节点标记为 -1,推文节点标记为事件 ID(如 1 和 2)。edge_labels: 所有边的标签。用户-用户边标记为推文的事件 ID(如 1 和 2),用户-推文边标记为 -1。edge_index: 所有边的节点索引对。
text_nodes: 子版块节点的文本为子版块名称,用户节点的文本为用户标签。text_edges: 子版块-用户边的文本为 Reddit 评论。node_labels: 所有节点的标签。子版块节点标记为 -1,用户节点标记为是否为任何 Reddit 社区的版主(0 或 1)。edge_score_labels: 所有边的分数。评论的分数为赞成票减去反对票。edge_special_labels: 所有边的二进制标签。普通评论标记为 0,杰出评论(由社区版主发送)标记为 1。edge_index: 所有边的节点索引对。



