five

Zixing-GOU/TEG-DB

收藏
Hugging Face2024-06-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Zixing-GOU/TEG-DB
下载链接
链接失效反馈
官方服务:
资源简介:
TEG-DB是一个包含多个数据集的基准数据集,这些数据集具有丰富的文本边信息。数据集包括用户-书评网络、引文网络、购物网络和社交网络(如Reddit和Twitter)。每个网络都有不同类型的节点和边,并且包含了丰富的文本信息,如书评、引文上下文、产品评论和社交媒体内容。数据集的文件结构包括原始数据、处理后的数据以及生成的文本嵌入。README还提供了如何加载原始数据、生成图数据以及下载和处理数据的脚本。

TEG-DB是一个包含多个数据集的基准数据集,这些数据集具有丰富的文本边信息。数据集包括用户-书评网络、引文网络、购物网络和社交网络(如Reddit和Twitter)。每个网络都有不同类型的节点和边,并且包含了丰富的文本信息,如书评、引文上下文、产品评论和社交媒体内容。数据集的文件结构包括原始数据、处理后的数据以及生成的文本嵌入。README还提供了如何加载原始数据、生成图数据以及下载和处理数据的脚本。
提供机构:
Zixing-GOU
原始信息汇总

TEG-DB 数据集概述

TEG-DB 是一个包含丰富文本边数据的数据集基准。

文件结构

  • dataset_name/
    • raw/
      • dataset.pkl: 处理后的图数据,格式为 .pkl
    • processed/
      • download_data.sh: 下载原始数据的脚本。
      • data_processing.py: 将原始数据处理成 .pkl 格式的脚本。
      • instructions.txt: 使用脚本的说明。
    • embeddings/
      • text_embeddings.pt: 从原始数据生成的文本嵌入。

使用方法

加载原始数据

python import pickle with open(data/raw/dataset.pkl, rb) as f: data = pickle.load(f)

生成图数据

用户可以根据自己的需求生成图数据,可以使用提供的处理方法或基于这些方法创建自己的图数据。

数据下载

bash bash dataset_name/processed/download_data.sh

数据处理

bash python dataset_name/processed/dataset_processing.py

图结构和属性

用户-书籍评论网络(Goodreads)

  • text_nodes: 节点类型,包括用户、书籍和流派(共十种类型)。
  • nodes_text: 每本书的摘要。
  • edge_index: 所有边的节点索引对。
  • text_edges: 用户和书籍之间的评论,即边的文本信息。

引文网络

  • text_nodes: 论文标题。
  • text_node_labels: 每篇论文的类别。
  • edge_index: 所有边的节点索引对。
  • text_edges: 引文信息,如引文上下文、引文段落等。

购物网络(Amazon)

  • text_nodes: 节点类型,包括用户和产品(ASIN)。
  • edge_index: 所有边的节点索引对。
  • text_edges: 用户和产品之间的评论。
  • node_texts: 产品的摘要。
  • text_node_labels: 产品的类别。

社交网络(Reddit 和 Twitter)

Twitter

  • text_nodes: 用户节点的文本为 "user",推文节点的文本为实际推文内容。
  • text_edges: 用户-用户边的文本为推文内容,用户-推文边的文本为空字符串。
  • node_labels: 所有节点的标签。用户节点标记为 -1,推文节点标记为事件 ID(如 1 和 2)。
  • edge_labels: 所有边的标签。用户-用户边标记为推文的事件 ID(如 1 和 2),用户-推文边标记为 -1。
  • edge_index: 所有边的节点索引对。

Reddit

  • text_nodes: 子版块节点的文本为子版块名称,用户节点的文本为用户标签。
  • text_edges: 子版块-用户边的文本为 Reddit 评论。
  • node_labels: 所有节点的标签。子版块节点标记为 -1,用户节点标记为是否为任何 Reddit 社区的版主(0 或 1)。
  • edge_score_labels: 所有边的分数。评论的分数为赞成票减去反对票。
  • edge_special_labels: 所有边的二进制标签。普通评论标记为 0,杰出评论(由社区版主发送)标记为 1。
  • edge_index: 所有边的节点索引对。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作