50,000 sentence mental health state labelled dataset

github2025-03-02 更新2025-03-07 收录

下载链接：

https://github.com/SYEDFAIZAN1987/mindBERT

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含50,000个句子心理健康状态标签的数据集

A dataset consisting of 50,000 sentences annotated with mental health status labels

创建时间：

2025-03-02

原始信息汇总

mindBERT 数据集概述

数据集基本信息

名称: mindBERT
类型: 心理健康文本分类数据集
数据量: 50,000 条带标签的句子
标签类别: 压力、抑郁、双相情感障碍、人格障碍、焦虑

主要特点

模型类型: 基于 BERT 的微调模型
训练数据: 真实世界的心理健康文本数据
优化目标: 推理和部署优化
交互界面: 提供 Hugging Face Spaces 交互式 UI

训练与评估结果

最终准确率: 93.39%
训练轮次: 5 轮
评估指标:
- 训练损失
- 验证损失
- 准确率

训练损失与学习率

训练损失: 从 0.359400（第1轮）降至 0.087600（第5轮）
验证损失: 从 0.285864（第1轮）升至 0.282782（第5轮）
准确率: 从 89.61%（第1轮）提升至 93.39%（第5轮）

可视化结果

训练损失与学习率曲线
评估指标（损失与准确率）图表
混淆矩阵
数据集标签分布图

模型架构

基础模型: BERT-base
分类头: 密集层 + softmax 激活函数
实现库: Hugging Face 的 transformers 库

训练配置

框架: PyTorch
训练参数:
- 学习率: 2e-5
- 训练批次大小: 16
- 评估批次大小: 16
- 训练轮次: 5
- 权重衰减: 0.01
- 学习率调度器类型: 线性
- 预热步数: 500

使用方法

加载模型和分词器
准备输入文本
进行推理
获取预测结果

未来改进方向

使用更大数据集进行微调（如 CLPsych、eRisk）
扩展标签类别以覆盖更广泛的心理健康问题
部署为实时应用 API

搜集汇总

数据集介绍

构建方式

该数据集是针对心理健康文本分类任务构建的，采用真实的心理健康文本数据进行训练。mindBERT模型利用了BERT-base作为预训练骨架，通过微调策略，在50,000个标注了心理健康状态句子的数据集上进行训练，实现了对压力、抑郁、双相情感障碍、人格障碍和焦虑等心理状态的准确检测。

特点

数据集具有以下显著特征：基于真实世界数据构建，微调后的BERT模型表现出高准确率，针对推理和部署进行了优化，且具备交互式用户界面。此外，数据集的标签分布均衡，有助于模型的泛化能力。

使用方法

使用mindBERT模型进行推理时，需加载预训练模型和分词器，输入文本经过分词、截断和填充后，送入模型得到logits，再通过argmax函数获取预测类别。用户可以根据需要，直接在Hugging Face Spaces上的交互式界面进行使用，或按照提供的代码示例进行本地推理。

背景与挑战

背景概述

在当今社会，心理健康问题日益受到广泛关注。‘50,000 sentence mental health state labelled dataset’是一个应运而生的数据集，由SYEDFAIZAN1987等研究人员创建于近年来。该数据集旨在通过文本数据对心理健康状态进行分类，涵盖压力、抑郁、双相情感障碍、人格障碍和焦虑等多种心理状况。其研究成果不仅为心理健康领域的文本分析提供了重要资源，也对相关临床诊断与干预策略的制定产生了深远影响。

当前挑战

该数据集在构建和应用过程中面临诸多挑战。首先，心理健康状态的文本分类需解决领域内数据的多样性和复杂性问题。其次，在数据集构建过程中，确保标注质量的一致性和准确性是关键。此外，模型的泛化能力以及在实际应用中的部署和优化也是当前研究的重要挑战。数据集在训练过程中出现的过拟合现象以及如何处理标签不平衡问题也是待解决的关键技术难题。

常用场景

经典使用场景

在心理学和自然语言处理领域，50,000 sentence mental health state labelled dataset被广泛用于训练和评估文本分类模型，以识别个体的心理健康状态。该数据集的经典使用场景在于，通过深度学习模型对文本数据进行标注，从而实现对抑郁、焦虑等心理状况的自动检测与分类。

实际应用

在实际应用中，该数据集可用于构建心理健康监测系统，辅助医疗专业人员及时发现和干预心理问题。例如，在社交媒体或咨询平台的文本分析中，该数据集能够帮助识别需要帮助的用户，并提供相应的支持和建议。

衍生相关工作

基于该数据集，研究者们衍生出多项相关工作，包括但不限于开发新的心理健康诊断模型、探索文本数据中的情感分析技术，以及构建针对特定心理疾病的预测工具，进一步拓展了该数据集在心理健康研究领域的应用范围。

以上内容由遇见数据集搜集并总结生成