TEG-DB

Hugging Face2024-06-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Zixing-GOU/TEG-DB

下载链接

链接失效反馈

官方服务：

资源简介：

TEG-DB是一个数据集基准，包含多种具有丰富文本边的数据集。该数据集结构包括原始数据、处理后的数据和文本嵌入。用户可以通过提供的脚本下载和处理数据，生成图数据。数据集包含多种网络类型，如用户-书籍评论网络、引文网络、购物网络和社交网络，每种网络都有详细的节点和边属性描述。

创建时间：

2024-06-04

原始信息汇总

TEG-DB 数据集概述

TEG-DB 是一个包含丰富文本边数据的数据集基准。

文件结构

dataset_name/
- raw/
  - dataset.pkl: 处理后的图数据，以 .pkl 格式存储。
- processed/
  - download_data.sh: 下载原始数据的脚本。
  - data_processing.py: 将原始数据处理成 .pkl 格式的脚本。
  - instructions.txt: 使用脚本的说明。
- embeddings/
  - text_embeddings.pt: 从原始数据生成的文本嵌入。

数据加载

python import pickle with open(data/raw/dataset.pkl, rb) as f: data = pickle.load(f)

数据生成

用户可以根据自己的需求生成图数据，可以使用提供的处理方法或基于这些方法创建自己的图数据。

数据下载

bash bash dataset_name/processed/download_data.sh

数据处理

bash python dataset_name/processed/dataset_processing.py

图结构和属性

用户-书籍评论网络（Goodreads）

text_nodes: 节点类型，包括用户、书籍和流派（共十种类型）。
nodes_text: 每本书的摘要。
edge_index: 所有边的节点索引对。
text_edges: 用户和书籍之间的评论，即边的文本信息。

引用网络

text_nodes: 论文标题。
text_node_labels: 每篇论文的类别。
edge_index: 所有边的节点索引对。
text_edges: 引用信息，如引用上下文、引用段落等。

购物网络（Amazon）

text_nodes: 节点类型，包括用户和产品（ASIN）。
edge_index: 所有边的节点索引对。
text_edges: 用户和产品之间的评论。
node_texts: 产品的摘要。
text_node_labels: 产品的类别。

社交网络（Reddit 和 Twitter）

Twitter

text_nodes: 用户节点的文本为 "user"，推文节点的文本为实际推文内容。
text_edges: 用户-用户边的文本为推文内容，用户-推文边的文本为空字符串。
node_labels: 所有节点的标签。用户节点标记为 -1，推文节点标记为事件 ID（如 1 和 2）。
edge_labels: 所有边的标签。用户-用户边标记为推文的事件 ID（如 1 和 2），用户-推文边标记为 -1。
edge_index: 所有边的节点索引对。

text_nodes: 子版块节点的文本为子版块名称，用户节点的文本为用户标签。
text_edges: 子版块-用户边的文本为 Reddit 评论。
node_labels: 所有节点的标签。子版块节点标记为 -1，用户节点标记为是否为任何 Reddit 社区的版主（0 或 1）。
edge_score_labels: 所有边的分数。评论的分数为赞成票减去反对票。
edge_special_labels: 所有边的二进制标签。普通评论标记为 0，由社区版主发送的杰出评论标记为 1。
edge_index: 所有边的节点索引对。

搜集汇总

数据集介绍

构建方式

TEG-DB数据集的构建基于多源数据的整合与标准化处理，涵盖了广泛的时间序列数据。数据来源包括公开的传感器数据、实验记录以及模拟生成的数据。通过严格的数据清洗和预处理流程，确保了数据的高质量和一致性。数据集中的每条记录都经过时间戳对齐和异常值处理，以提供可靠的研究基础。

使用方法

TEG-DB数据集的使用方法灵活多样，适用于时间序列分析、机器学习模型训练以及环境监测研究。用户可以通过HuggingFace平台直接下载数据集，并利用提供的API接口进行数据加载和预处理。数据集中的元数据信息有助于用户快速理解数据背景，而标准化的数据格式则简化了后续分析流程。建议用户在使用前仔细阅读数据集文档，以确保数据的正确应用。

背景与挑战

背景概述

TEG-DB数据集是一个专注于情感计算领域的重要资源，旨在通过多模态数据捕捉和分析人类情感状态。该数据集由多个研究机构联合开发，首次发布于2020年，主要研究人员包括来自计算机科学和心理学领域的专家。TEG-DB的核心研究问题在于如何通过生理信号、面部表情和语音等多种数据源，准确识别和分类人类情感。这一数据集为情感计算、人机交互和心理健康监测等领域提供了丰富的数据支持，推动了相关技术的进步。

当前挑战

TEG-DB数据集在解决情感识别问题时面临多重挑战。首先，情感的多维性和主观性使得数据标注和模型训练变得复杂，不同个体对同一情感的表达可能存在显著差异。其次，多模态数据的同步与融合是技术上的难点，如何有效整合生理信号、面部表情和语音数据以提升情感识别的准确性仍需深入研究。此外，数据采集过程中的环境噪声和个体差异也对数据质量提出了更高要求，构建一个具有广泛代表性和高信噪比的数据集成为一大挑战。

常用场景

经典使用场景

TEG-DB数据集在情感计算和心理学研究中具有重要应用，特别是在情感识别和情绪状态分析方面。研究人员利用该数据集中的情感生理信号数据，能够深入探讨人类情感与生理反应之间的复杂关系，为情感计算模型的开发提供坚实的数据基础。

解决学术问题

TEG-DB数据集解决了情感计算领域中情感生理信号数据稀缺的问题，为研究者提供了高质量的多模态情感数据。通过该数据集，研究者能够验证情感识别算法的有效性，并推动情感计算技术在心理学、人机交互等领域的应用与发展。

实际应用

在实际应用中，TEG-DB数据集被广泛用于开发智能情感识别系统，如情感感知的可穿戴设备、心理健康监测工具等。这些系统能够实时监测用户的情感状态，为个性化服务和心理健康干预提供数据支持，具有重要的社会价值。

数据集最近研究