irlab-udc/redsm5-sample

Name: irlab-udc/redsm5-sample
Creator: irlab-udc
Published: 2025-08-06 07:55:16
License: 暂无描述

Hugging Face2025-08-06 更新2025-07-05 收录

下载链接：

https://hf-mirror.com/datasets/irlab-udc/redsm5-sample

下载链接

链接失效反馈

官方服务：

资源简介：

ReDSM5-Sample是一个公开的、完全改写的、匿名化的ReDSM5数据集样本，包含25条改写后的数据条目，每条都包含针对DSM-5重大抑郁症症状的句子级别标注和专家编写的解释说明。

ReDSM5-Sample is a public, fully paraphrased, and anonymized sample of the ReDSM5 dataset, containing 25 rewritten entries, each with sentence-level annotations for DSM-5 major depressive episode symptoms and an expert-written rationale.

提供机构：

irlab-udc

搜集汇总

数据集介绍

构建方式

在临床自然语言处理领域，构建高质量的数据集对于推进精神健康研究至关重要。ReDSM5-Sample数据集源自Reddit平台，通过精心设计的流程构建而成。原始数据经过严格的匿名化处理，所有文本内容均被完全改写，确保不包含任何原始用户信息，从而在保护隐私的前提下保留了临床相关性。每个样本均包含帖子级别的文本以及句子级别的注释，这些注释由临床专家根据DSM-5重度抑郁发作标准进行标注，明确标识了症状的存在与否，并附有详细的解释性依据。

使用方法

针对心理健康辅助筛查任务，该数据集为模型开发与评估提供了结构化资源。研究者可主要利用两个关联的CSV文件：帖子文件包含改写后的完整文本，而注释文件则提供了句子级别的症状标签与解释。这种结构支持多种自然语言处理任务，例如基于文本的抑郁症状分类、可解释性人工智能研究，或作为生成诊断依据的序列到序列学习任务的训练数据。在使用时，需通过`post_id`关联两个文件，并依据`DSM5_symptom`和`status`字段构建监督学习目标，同时`explanation`字段可用于增强模型决策的透明度。

背景与挑战

背景概述

在临床自然语言处理领域，利用社交媒体数据进行精神健康监测已成为一项前沿研究方向。ReDSM5数据集由西班牙拉科鲁尼亚大学信息检索实验室的研究团队于2025年创建，其核心目标在于构建一个基于Reddit平台用户发帖、并严格依据《精神障碍诊断与统计手册》第五版（DSM-5）标准进行症状标注的抑郁症检测数据集。该数据集通过提供句子级别的症状存在性标注及专家撰写的解释依据，旨在推动可解释性人工智能在心理健康领域的应用，为开发更精准、透明的自动化筛查工具提供了关键资源，对计算精神病学和临床NLP领域产生了显著的学术影响力。

当前挑战

该数据集致力于解决从非结构化社交媒体文本中自动识别符合临床诊断标准的抑郁症状这一复杂挑战，其核心难点在于将模糊、多样的日常语言表达准确映射到结构化的DSM-5诊断标准上。在构建过程中，研究团队面临多重挑战：首要挑战在于确保数据隐私与伦理合规，必须对原始用户内容进行彻底的匿名化与改写，在消除个人身份信息的同时竭力保留临床相关的语义特征；其次，高质量的临床标注依赖于精神健康领域专家的深度参与，如何保证跨标注者间对DSM-5症状解释的一致性，并生成具有临床效度的解释依据，是另一项关键挑战。

常用场景

经典使用场景

在临床自然语言处理领域，ReDSM5-Sample数据集为研究者提供了一个探索社交媒体文本与精神健康评估关联的宝贵窗口。该数据集的核心应用场景在于训练和验证基于DSM-5诊断标准的抑郁症自动检测模型。通过精心标注的句子级症状标签及专家撰写的解释性依据，研究者能够深入分析Reddit帖子中蕴含的情感与认知模式，从而构建能够识别抑郁相关语言特征的机器学习系统。这种应用不仅推动了计算精神病学的发展，也为大规模心理健康筛查提供了可扩展的技术基础。

解决学术问题

该数据集有效应对了心理健康研究中数据稀缺与隐私伦理之间的核心矛盾。通过提供完全匿名化与改写的样本，它使得学术界能够在严格遵守数据保护规范的前提下，开展抑郁症的计算语言学分析。具体而言，数据集解决了如何将临床诊断标准（DSM-5）系统性地应用于用户生成内容标注的难题，为建立可解释的、基于证据的自动诊断模型提供了高质量的训练资源。其意义在于架起了临床心理学与人工智能之间的桥梁，促进了诊断过程的客观化与早期干预的可行性研究。

实际应用

在实际应用层面，ReDSM5-Sample数据集支撑着面向公共健康的数字工具开发。基于此类数据训练的模型可集成至在线社区平台或心理健康应用程序中，用于实时监测用户语言中可能存在的抑郁风险信号，实现早期预警与资源引导。此外，它也可用于辅助临床医生进行初步评估，通过提供文本的潜在症状解读，增强诊断效率与一致性。这些应用场景展现了计算技术如何赋能心理健康服务的普惠化与精准化，尤其在资源有限的环境中具有显著价值。

数据集最近研究