mavinsao/reddit-mental-illness-82
收藏Hugging Face2024-03-14 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/mavinsao/reddit-mental-illness-82
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含文本和标签两个主要字段,标签字段有8个类别,分别是adhd、anxiety、bipolar、bpd、depression、none、ocd和ptsd。数据集被分为训练集、测试集和验证集,分别包含42113、5264和5265个样本。数据集的下载大小为30269412字节,总大小为48567783.0字节。
This dataset contains two main fields: text and label. The label field has 8 categories, namely adhd, anxiety, bipolar, bpd, depression, none, ocd, and ptsd. The dataset is divided into training set, test set and validation set, which contain 42113, 5264 and 5265 samples respectively. The download size of the dataset is 30269412 bytes, and the total size is 48567783.0 bytes.
提供机构:
mavinsao
原始信息汇总
数据集概述
数据集特征
- text:文本类型,字符串格式。
- label:标签类型,包含以下类别:
- 0: adhd
- 1: anxiety
- 2: bipolar
- 3: bpd
- 4: depression
- 5: none
- 6: ocd
- 7: ptsd
数据集分割
- 训练集:包含42113个样本,总大小为38853672.8368793字节。
- 测试集:包含5264个样本,总大小为4856593.778959766字节。
- 验证集:包含5265个样本,总大小为4857516.384160936字节。
数据集大小
- 下载大小:30269412字节。
- 数据集总大小:48567783.0字节。
搜集汇总
数据集介绍

构建方式
mavinsao/reddit-mental-illness-82数据集的构建,是通过从Reddit论坛上收集与心理健康相关的帖文,并对这些文本数据进行标注,以涵盖多种心理健康状况,如ADHD、焦虑、双相情感障碍等。数据集分为训练集、测试集和验证集,确保了模型的训练与评估的全面性。
特点
该数据集的特点在于,它提供了一个针对心理健康状况的大型文本数据集,其中包含了丰富的标注信息,涵盖了七种不同的心理健康状况以及一个正常对照类别。数据集的构建考虑到了数据的多样性和代表性,使得研究人员可以在这一领域进行深入的分析和研究。
使用方法
使用mavinsao/reddit-mental-illness-82数据集时,用户可以根据自己的研究需求下载相应的数据分片,包括训练集、测试集和验证集。数据以JSON格式存储,其中包含了文本内容和对应的标签。用户可以利用这些数据来训练文本分类模型,以实现对心理健康状况的自动识别和分类。
背景与挑战
背景概述
mavinsao/reddit-mental-illness-82数据集,诞生于心理健康研究领域,由mavinsao团队精心构建。该数据集汇集了Reddit论坛上关于心理健康问题的讨论记录,旨在为心理健康异常检测提供高质量的标注数据。数据集涵盖了包括ADHD、焦虑、双相情感障碍、边缘型人格障碍、抑郁、强迫症和创伤后应激障碍在内的多种心理健康问题,以及无心理健康问题类别。自创建以来,该数据集为心理健康诊断、干预策略研究及在线健康信息监测等领域提供了重要资源,对推动相关学科发展具有显著影响。
当前挑战
在数据集构建过程中,研究人员面临了多方面的挑战。首先,如何确保所收集的数据真实反映了用户的心理健康状态,而非其他因素的干扰,是一大难题。其次,对Reddit论坛上的语言进行准确分类,需要克服网络语言的非正式性、多样性和模糊性。此外,构建一个既能覆盖广泛心理健康问题,又具有足够样本量的数据集,对于数据收集和标注都是一项艰巨的任务。在研究领域问题方面,该数据集面临的挑战包括如何提高心理健康问题分类的准确性和鲁棒性,以及如何在保护用户隐私的同时,充分利用数据集促进心理健康研究的深入进行。
常用场景
经典使用场景
在心理学与自然语言处理交叉领域,mavinsao/reddit-mental-illness-82数据集被广泛应用于构建与训练分类模型,以识别和分类网络论坛中与心理健康相关的帖子。其经典使用场景在于,研究者通过该数据集训练出的模型能够对Reddit上的用户发帖进行自动标注,从而辅助心理健康专家进行大规模的初步筛选和诊断。
实际应用
在现实应用中,mavinsao/reddit-mental-illness-82数据集的应用前景广阔,例如,可以用于开发在线心理健康监测工具,为用户提供即时的心理状态评估,甚至可以辅助构建智能聊天机器人,为需要帮助的用户提供初步的心理咨询和引导。
衍生相关工作
基于此数据集,学术界已衍生出多项相关工作,包括但不限于对心理健康状态预测模型的改进、跨语言和跨文化的研究,以及结合临床数据的多模态分析,这些研究进一步拓宽了该数据集的应用范围,并推动了心理健康诊断与干预技术的进步。
以上内容由遇见数据集搜集并总结生成



