认知扭曲和自杀风险分类数据集

Name: 认知扭曲和自杀风险分类数据集
Creator: 北京工业大学信息技术学院
Published: 2023-11-01 18:15:34
License: 暂无描述

arXiv2023-11-01 更新2024-06-21 收录

下载链接：

https://github.com/HongzhiQ/SupervisedVsLLM-EfficacyEval

下载链接

链接失效反馈

官方服务：

资源简介：

本研究引入了两个新的标注数据集，专注于中国社交媒体上的认知扭曲和自杀风险分类。这些数据集由专家手动标注，旨在为社区提供宝贵的资源，并具有深远的现实意义，可能为自杀预防和认知扭曲干预策略提供信息。数据集包含来自微博社交平台的评论，由合格的心理学家团队进行标注。自杀风险数据集包含648条低风险记录和601条高风险记录，而认知扭曲数据集包含910条记录。这些数据集不仅服务于社区，还旨在解决心理健康领域中的重要问题，如自杀风险评估和认知扭曲的识别。

This study introduces two newly annotated datasets focused on cognitive distortion and suicide risk classification on Chinese social media. These datasets are manually annotated by experts, aiming to provide valuable resources for the research community and carrying far-reaching practical significance, which could inform suicide prevention and cognitive distortion intervention strategies. The datasets consist of comments from the Weibo social platform, annotated by a team of qualified psychologists. The suicide risk dataset contains 648 low-risk records and 601 high-risk records, while the cognitive distortion dataset includes 910 records. These datasets not only serve the research community, but also aim to address critical issues in the field of mental health, such as suicide risk assessment and cognitive distortion recognition.

提供机构：

北京工业大学信息技术学院

创建时间：

2023-09-07

搜集汇总

数据集介绍

构建方式

在心理健康研究领域，社交媒体数据已成为洞察用户情绪状态的重要窗口。该数据集聚焦于中文社交媒体中的认知扭曲与自杀风险分类，其构建过程体现了严谨的学术规范。研究团队从新浪微博平台中爬取了用户评论作为原始语料，随后邀请具备资质的心理学专家团队进行人工标注。数据标注遵循了心理学中经典的认知扭曲分类框架，涵盖了全有或全无思维、过度概括、心理过滤等12个精细类别，同时针对自杀风险进行了高、低两级的二元划分。整个数据集经过严格的训练集与测试集划分，确保了后续模型评估的科学性与可靠性。

使用方法

该数据集为评估不同机器学习范式在心理健康文本分析上的效能提供了标准化的测试平台。研究者可将其应用于监督学习模型的训练与评估，例如基于BERT或LSAN等架构构建分类器。同时，数据集特别设计用于评测大语言模型在此领域的表现，支持零样本、少样本及微调等多种评估策略。在使用时，可依据研究目标设计不同的提示策略，例如结合角色定义、场景定义或混合提示，以探究模型对心理学领域知识的理解与泛化能力。通过对比监督学习与大语言模型在该数据集上的性能差异，能够深入洞察不同技术路径在复杂心理状态识别任务上的优势与局限。

背景与挑战

背景概述

在心理健康与自然语言处理交叉领域，认知扭曲和自杀风险分类数据集于2023年由北京工业大学、武汉大学及法国索邦大学等机构的研究团队共同构建。该数据集聚焦于中文社交媒体中用户表达的认知扭曲模式与自杀风险信号，旨在通过标注数据推动人工智能在心理健康监测与干预中的应用。其核心研究问题在于如何利用监督学习与大语言模型，精准识别社交媒体文本中隐含的心理健康风险，为及时的心理援助提供数据支持。该数据集的发布填补了中文细粒度心理健康文本分析资源的空白，对促进跨文化心理健康研究具有重要价值。

当前挑战

该数据集面临的挑战主要体现在两方面：在领域问题层面，认知扭曲与自杀风险分类属于细粒度、高复杂性的自然语言理解任务，模型需区分微妙的情感差异与心理学术语，例如准确辨别“灾难化”与“过度概括”等认知扭曲类别，这对模型的语义理解与领域知识融合提出了极高要求。在构建过程中，数据标注依赖专业心理学家的手动完成，不仅成本高昂，且存在主观判断差异，确保标注一致性与可靠性成为关键难题；同时，社交媒体文本的简短性、非正式表达及文化特定性，进一步增加了数据质量保障与模型泛化的难度。

常用场景

经典使用场景

在心理健康研究领域，社交媒体文本已成为揭示用户情绪状态的重要窗口。认知扭曲和自杀风险分类数据集通过标注中文社交媒体中的用户言论，为研究者提供了识别认知扭曲模式与自杀倾向的宝贵资源。该数据集最经典的使用场景在于训练和评估自然语言处理模型，特别是监督学习与大语言模型，以自动检测文本中隐含的心理健康风险信号。通过精细的类别划分，如全有或全无思维、过度概括等12种认知扭曲类型，以及高、低自杀风险等级，该数据集支持多标签分类任务，助力模型在复杂情感语境下的精准判别。

解决学术问题

该数据集有效解决了心理健康研究中文本情感分析的细粒度分类难题。传统方法在中文社交媒体语境下常面临标注数据稀缺、类别界限模糊等挑战。通过提供专家手动标注的高质量语料，该数据集为探索监督学习与大语言模型在心理领域的性能差异奠定了实证基础。其意义在于推动了跨学科研究，将计算语言学与临床心理学紧密结合，不仅提升了模型对复杂人类情绪的理解能力，还为早期干预策略提供了数据驱动的决策支持，对降低自杀风险、改善认知健康具有深远影响。

实际应用

在实际应用层面，该数据集为开发自动化心理健康监测系统提供了核心数据支撑。基于该数据集训练的模型可部署于社交媒体平台，实时扫描用户发布内容，识别潜在的心理危机信号，如自杀意念或认知扭曲表达。这类系统能够辅助心理健康专业人员实现早期预警，优化资源分配，并为用户提供及时的干预建议或转介服务。此外，该数据集还可用于教育场景，帮助培训心理咨询师识别网络环境中的心理问题表现，提升公众对心理健康问题的认知与应对能力。

数据集最近研究