RSD-15K

Name: RSD-15K
Creator: 香港理工大学计算学系, 安徽大学计算机科学与技术学院
Published: 2025-07-14 17:26:26
License: 暂无描述

arXiv2025-07-14 更新2025-07-18 收录

下载链接：

https://github.com/Suicide-DataSet/RSD 15K

下载链接

链接失效反馈

官方服务：

资源简介：

RSD-15K是一个大规模的用户级注释数据集，用于社交媒体上的自杀风险检测。该数据集包含约15,000条用户级帖子，是目前同类数据集中最大的之一。我们不仅保留了用户的完整发帖时间序列信息，以支持风险演变分析，还采用了一个四级风险等级注释系统，显著提高了风险评估的精度。在数据注释过程中，我们在专业指导下进行了多轮交叉验证，以确保注释结果的可靠性和一致性。该数据集在提出请求后公开可用。在基准测试中，我们使用从传统机器学习到深度学习的多个基线模型对系统进行了评估。实验结果表明，所有类型的模型在用户级风险识别任务中都能实现可靠的性能，这强烈证实了数据集的质量和实用价值。特别是在时间序列特征建模方面，我们的数据集显示出独特的优势。

RSD-15K is a large-scale user-level annotated dataset for suicide risk detection on social media. It contains approximately 15,000 user-level posts, making it one of the largest datasets of its kind to date. We not only preserve the complete posting time-series information for each user to support risk evolution analysis, but also adopt a four-level risk rating annotation system, which significantly enhances the accuracy of risk assessment. During the data annotation process, we performed multiple rounds of cross-validation under professional guidance to ensure the reliability and consistency of the annotation results. This dataset is publicly available upon request. In benchmark evaluations, we assessed the system using multiple baseline models spanning from traditional machine learning to deep learning. The experimental results demonstrate that all categories of models can achieve reliable performance on the user-level risk identification task, which strongly validates the quality and practical value of the dataset. Particularly in the domain of time-series feature modeling, our dataset exhibits distinct advantages.

提供机构：

香港理工大学计算学系, 安徽大学计算机科学与技术学院

创建时间：

2025-07-14

搜集汇总

数据集介绍

构建方式

RSD-15K数据集的构建过程体现了严谨的科学方法论。研究团队从Reddit平台的'suicidewatch'子论坛中精选了1,265位用户的14,613条帖子作为原始数据。在预处理阶段，通过去除重复内容、过滤特殊字符等标准化操作确保数据质量。创新性地采用基于哥伦比亚自杀严重程度评定量表(C-SSRS)的四级标注体系（Attempt/Behavior/Ideation/Indicator），并开发了专业标注流程：三位心理学背景的标注员经过严格培训，采用Label Studio平台进行多轮交叉验证，最终获得Fleiss' Kappa值为0.7206的高一致性标注结果。数据集完整保留了用户发帖时间序列信息，为风险动态演变研究提供了独特价值。

特点

该数据集在自杀风险检测领域具有多项突破性特征。作为目前规模最大的用户级别标注数据集，其14,613条标注样本远超同类资源。四级风险分级体系突破了传统二元分类的局限，能更精确地反映自杀风险的连续谱系。时序特性的保留使得研究者能够追踪用户心理状态的演变轨迹，这在既往研究中较为罕见。数据分布呈现真实世界的不均衡性（Ideation占比48.81%，Attempt仅5.54%），反映了社会媒体场景的自然特征。与现有数据集相比，其专家标注质量、时间维度完整性和风险分级粒度都具有明显优势。

使用方法

该数据集支持多层次的研究应用。在基准测试中，研究者可采用时间窗口策略（默认5个连续发帖单元）分析用户行为模式。数据集已按8:1:1比例划分训练集、验证集和测试集，确保用户级别隔离。使用时建议结合时序特征工程，如发帖间隔统计、时段分布等关键指标。实验表明，预训练语言模型（如DeBERTa）在该数据集上表现最优（准确率76%），但传统方法（如XGBoost）结合精心设计的时序-文本混合特征也能取得42.5%的基线性能。重要注意事项包括：需遵守数据使用伦理协议，禁止用户身份重识别，建议配合心理健康专家进行结果解读。

背景与挑战

背景概述

RSD-15K数据集由香港理工大学和安徽大学的研究团队于2025年联合发布，旨在解决社交媒体上自杀风险早期检测的关键问题。作为当前规模最大的用户级标注数据集，其包含15,000条来自Reddit平台‘suicidewatch’版块的时序性贴文，采用哥伦比亚自杀严重程度评定量表（C-SSRS）的四级风险标注体系。该数据集创新性地保留了用户发帖的完整时间序列信息，支持自杀风险的动态演化建模，并通过专业心理学团队的多轮交叉验证确保标注质量。其精细化的风险分级和时序分析能力，为心理健康领域的自然语言处理研究提供了重要基准，显著推动了基于社交媒体的自杀预防干预技术的发展。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，社交媒体文本存在表达隐晦、语境模糊等特性，导致传统二分类模型难以区分自杀意念（Ideation）与自杀行为（Behavior）的细微差异；同时用户风险状态的动态演变要求模型具备长时序依赖建模能力。在构建过程中，研究团队需克服敏感数据匿名化处理与学术价值保留的平衡难题，开发了基于Docker容器的分布式标注系统，通过不确定性报告机制和每日质量抽检制度将标注者间一致性系数（Fleiss' Kappa）提升至0.72。此外，数据固有的类别不平衡（自杀尝试类仅占5.54%）对模型泛化性能提出严峻考验。

常用场景

经典使用场景

RSD-15K数据集在心理健康研究领域具有重要价值，特别是在社交媒体上的自杀风险检测方面。该数据集通过保留用户发帖的完整时间序列信息，支持对自杀风险的动态演变进行建模。研究人员可以利用这一数据集，结合传统机器学习方法、深度学习模型以及微调后的大型语言模型，对用户的自杀风险进行自动评估。其四级别风险标注系统（Attempt、Behavior、Ideation、Indicator）显著提高了风险评估的精确度，为相关研究提供了可靠的数据基础。

衍生相关工作

RSD-15K数据集已衍生出多项经典研究工作。基于该数据集，研究者开发了多种自杀风险检测模型，包括传统机器学习方法（如XGBoost）、深度学习模型（如BiLSTM、HiGRU）以及预训练语言模型（如RoBERTa、DeBERTa）。这些模型在时间序列特征建模和语义理解方面取得了显著进展。此外，数据集还促进了跨学科合作，推动了心理学与自然语言处理领域的融合研究。相关成果已应用于心理健康监测系统的开发，并为后续研究提供了重要基准。

数据集最近研究