DepressionEmo

arXiv2024-01-10 更新2024-07-30 收录

下载链接：

https://github.com/abuBakarSiddiqurRahman/DepressionEmo

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于检测与抑郁症相关的8种情绪的数据集，包含6037个Reddit用户长帖的例子。

A dataset for detecting eight depression-related emotions, containing 6037 samples of long-form posts from Reddit users.

创建时间：

2024-01-10

原始信息汇总

DepressionEmo 数据集概述

数据集结构

子集划分：数据集分为三个子集：
- 训练集
- 验证集
- 测试集
数据示例：每个数据示例包含以下字段：
- id：唯一标识符
- title：标题
- post：帖子内容
- text：由title和post拼接而成的文本，用于抑郁症检测
- upvotes：点赞数
- date：发布日期
- emotions：情感标签列表
- label_id：情感标签的数字表示
情感标签：共有8种情感标签：
- anger：愤怒
- brain dysfunction (forget)：脑功能障碍（遗忘）
- emptiness：空虚
- hopelessness：绝望
- loneliness：孤独
- sadness：悲伤
- suicide intent：自杀意图
- worthlessness：无价值感
标签编码：label_id字段是一个数字，每一位表示对应情感的存在（1）或不存在（0）。例如：
- ["emptiness", "hopelessness"] -> 00110000 -> 110000
- ["anger"] -> 10000000
- [anger, brain dysfunction (forget), emptiness, hopelessness, loneliness, sadness, suicide intent, worthlessness] -> 11111111

训练方法

多标签分类问题：使用单一模型同时检测所有情感。
支持向量机（SVM）、Light GBM、XGBoost：
- 使用TfidfVectorizer，无预处理步骤。
- 训练命令：
  
  python svm.py python xgb.py python light_gbm.py
BERT：
- 训练命令：
  
  python bert.py --mode "train" --model_name "bert-base-cased" --epochs 25 --batch_size 8 --max_length 256 --train_path "Dataset/train.json" --val_path "Dataset/val.json" --test_path "Dataset/test.json"
- 测试命令：
  
  python bert.py --mode "test" --train_path "Dataset/train.json" --val_path "Dataset/val.json" --test_path "Dataset/test.json" --max_length 256 --test_batch_size 16
GAN BERT：
- 使用Dataset/label_names.json捕捉所有类别，包括unlabelled。
- 训练命令：
  
  python gan.py --mode "train" --model_name "bert-base-cased" --lr_discriminator 2e-5 --lr_generator 2e-5 --epochs 25 --batch_size 8
- 测试命令：
  
  python gan.py --mode "test" --model_path "model_bert-base-cased.bin" --test_file "Dataset/test.json"
BART：
- 训练命令：
  
  python seq2seq.py --mode "train" --model_name "facebook/bart-base" --train_path "Dataset/train.json" --val_path "Dataset/val.json" --test_path "Dataset/test.json" --epochs 25 --batch_size 4 --max_source_length 256
- 测试命令：
  
  python seq2seq.py --mode "test" --model_name "facebook/bart-base" --model_path "bart-basemodel_checkpoint_xxx" --test_path "Dataset/test.json" --test_batch_size 4 --max_source_length 256 --min_target_length 1

搜集汇总

数据集介绍

构建方式

DepressionEmo数据集的构建始于从Reddit平台上的特定子版块中收集用户帖子。这些子版块包括与抑郁相关的关键词，如'r/depression'、'r/DepressedPartners'、'r/loneliness'、'r/suicide'和'r/suicide_watch'。数据收集后，通过使用预训练模型的零样本分类结果进行多数投票来确定每个帖子的情绪标签。为了确保标签质量，研究人员邀请了三位博士生进行人工标注，并与ChatGPT的标注结果进行比较，以评估不同标注者之间的可靠性。最终，数据集被随机分为训练集、验证集和测试集，以确保模型训练的均衡性。

特点

DepressionEmo数据集的独特之处在于它专注于识别与抑郁相关的八种情绪，包括愤怒、认知功能障碍、空虚、绝望、孤独、悲伤、自杀意图和无价值感。这些情绪通过零样本分类和多数投票的方式被标注，并在标注过程中考虑了文本长度、情感分布和时间相关性。此外，该数据集还通过心理语言分析工具LIWC进行了分析，揭示了与抑郁文本相关的语言特征。与其他抑郁数据集相比，DepressionEmo具有更长的文本长度和专注于抑郁相关情绪的特点，使其成为多标签分类任务的有价值资源。

使用方法

使用DepressionEmo数据集时，研究人员可以采用多种文本分类方法，包括机器学习方法（如SVM、XGBoost和Light GBM）和深度学习方法（如BERT、GAN-BERT和BART）。这些方法可以直接应用于数据集进行训练，以识别和分类文本中的抑郁相关情绪。数据集的公开可用性允许研究人员轻松访问和探索其内容，从而促进对抑郁情绪的进一步研究和理解。

背景与挑战

背景概述

在人类社交互动中，情绪扮演着至关重要的角色，不同的情境背景会引发多样的情绪反应。尤其值得注意的是，负面情绪状态的普遍存在与心理健康状况的负面影响相关联，这促使了对负面情绪发生及其对个体影响进行综合分析的需求。本文介绍了一个名为DepressionEmo的新型数据集，旨在通过6037个Reddit用户的长篇帖子示例来检测与抑郁症相关的8种情绪。该数据集的创建基于预训练模型进行零样本分类的输入，并通过标注者和ChatGPT进行验证，展示了标注者之间可接受的互评信度水平。本文对情绪之间的相关性、它们随时间的分布以及语言分析进行了研究。此外，本文还提供了多种文本分类方法，分为两组：机器学习方法，如SVM、XGBoost和Light GBM；以及深度学习方法，如BERT、GAN-BERT和BART。预训练的BART模型bart-base使我们获得了最高的F1-Macro值为0.76，显示出其在分析中优于其他方法。在所有情绪中，自杀意图的F1-Macro值最高，这表明我们的数据集在通过文本分析识别具有抑郁症症状的个体的情绪方面具有一定的价值。

当前挑战

DepressionEmo数据集的创建和利用面临着多方面的挑战。首先，构建过程中需要解决如何从Reddit平台上收集和筛选出与抑郁症相关的文本数据的问题。其次，数据集的标注是一个复杂的任务，需要确保标注的一致性和准确性。本文通过零样本分类模型进行标注，并通过ChatGPT和人工标注者进行验证，以评估标注质量。此外，数据集的规模相对较小，特别是对于多标签分类任务，这可能会限制模型的泛化能力。未来，可以通过增加数据集的规模和多样性来克服这一挑战。

常用场景

经典使用场景

DepressionEmo数据集主要用于情感分析领域，特别是抑郁相关情感的识别。它包含6037条Reddit用户长文帖子，旨在检测与抑郁相关的8种情感。通过预先训练模型进行零样本分类，并结合人工标注和ChatGPT的验证，DepressionEmo展现出令人满意的标注者之间的一致性。该数据集为研究抑郁情感的时间分布、语言分析以及情感之间的相关性提供了宝贵资源。此外，DepressionEmo还提供了多种文本分类方法，包括SVM、XGBoost、Light GBM等机器学习方法，以及BERT、GAN-BERT和BART等深度学习方法，为研究人员提供了丰富的实验数据。

衍生相关工作

DepressionEmo数据集的出现，为抑郁相关情感的识别和分类研究提供了新的研究思路和方法。基于DepressionEmo数据集，研究人员可以进行多种文本分类方法的比较和评估，探索更有效的抑郁情感识别模型。此外，该数据集还可以用于研究抑郁情绪的时间分布、语言分析以及情感之间的相关性，为理解抑郁情绪的本质和规律提供新的视角。基于DepressionEmo数据集的研究成果，可以进一步推动情感分析领域的发展，为抑郁相关情感的自动识别和干预提供更加精准和有效的工具。

数据集最近研究