DepressionEmo
收藏DepressionEmo 数据集概述
数据集结构
-
子集划分:数据集分为三个子集:
- 训练集
- 验证集
- 测试集
-
数据示例:每个数据示例包含以下字段:
id:唯一标识符title:标题post:帖子内容text:由title和post拼接而成的文本,用于抑郁症检测upvotes:点赞数date:发布日期emotions:情感标签列表label_id:情感标签的数字表示
-
情感标签:共有8种情感标签:
anger:愤怒brain dysfunction (forget):脑功能障碍(遗忘)emptiness:空虚hopelessness:绝望loneliness:孤独sadness:悲伤suicide intent:自杀意图worthlessness:无价值感
-
标签编码:
label_id字段是一个数字,每一位表示对应情感的存在(1)或不存在(0)。例如:["emptiness", "hopelessness"]->00110000->110000["anger"]->10000000[anger, brain dysfunction (forget), emptiness, hopelessness, loneliness, sadness, suicide intent, worthlessness]->11111111
训练方法
-
多标签分类问题:使用单一模型同时检测所有情感。
-
支持向量机(SVM)、Light GBM、XGBoost:
-
使用TfidfVectorizer,无预处理步骤。
-
训练命令:
python svm.py python xgb.py python light_gbm.py
-
-
BERT:
-
训练命令:
python bert.py --mode "train" --model_name "bert-base-cased" --epochs 25 --batch_size 8 --max_length 256 --train_path "Dataset/train.json" --val_path "Dataset/val.json" --test_path "Dataset/test.json"
-
测试命令:
python bert.py --mode "test" --train_path "Dataset/train.json" --val_path "Dataset/val.json" --test_path "Dataset/test.json" --max_length 256 --test_batch_size 16
-
-
GAN BERT:
-
使用
Dataset/label_names.json捕捉所有类别,包括unlabelled。 -
训练命令:
python gan.py --mode "train" --model_name "bert-base-cased" --lr_discriminator 2e-5 --lr_generator 2e-5 --epochs 25 --batch_size 8
-
测试命令:
python gan.py --mode "test" --model_path "model_bert-base-cased.bin" --test_file "Dataset/test.json"
-
-
BART:
-
训练命令:
python seq2seq.py --mode "train" --model_name "facebook/bart-base" --train_path "Dataset/train.json" --val_path "Dataset/val.json" --test_path "Dataset/test.json" --epochs 25 --batch_size 4 --max_source_length 256
-
测试命令:
python seq2seq.py --mode "test" --model_name "facebook/bart-base" --model_path "bart-basemodel_checkpoint_xxx" --test_path "Dataset/test.json" --test_batch_size 4 --max_source_length 256 --min_target_length 1
-

- 1DepressionEmo: A novel dataset for multilabel classification of depression emotions · 2024年



