SOS-1K
收藏arXiv2024-04-19 更新2024-06-21 收录
下载链接:
https://github.com/HongzhiQ/FineGrainedSuicideDetection
下载链接
链接失效反馈官方服务:
资源简介:
SOS-1K数据集是由北京工业大学软件工程学院创建,专注于中国社交媒体上的自杀风险分类。该数据集包含1249条记录,涵盖了自杀意图表达、自杀方法和时间紧迫性等多个细粒度指标。数据集的创建过程涉及从微博平台收集评论,并通过大型语言模型和领域专家进行标注。SOS-1K数据集的应用领域主要集中在社交媒体上的自杀风险自动识别,旨在通过及时的心理干预预防自杀行为。
The SOS-1K dataset was created by the School of Software Engineering, Beijing University of Technology, focusing on suicide risk classification on Chinese social media. It contains 1249 records covering multiple fine-grained indicators including expressions of suicidal intent, suicide methods, and temporal urgency. The dataset construction involved collecting comments from the Weibo platform, followed by annotation using large language models (LLMs) and domain experts. The primary application of the SOS-1K dataset is automatic suicide risk identification on social media, aiming to prevent suicidal behaviors through timely psychological intervention.
提供机构:
北京工业大学软件工程学院
创建时间:
2024-04-19
搜集汇总
数据集介绍

构建方式
SOS-1K数据集的构建旨在填补中文社交媒体中自杀风险检测数据集的空白。该数据集包含1249条来自中国社交媒体平台的内容,这些内容基于表达的存在痛苦、自杀意图强度、自杀方法以及自杀计划的明确性和紧迫性等因素被分为11个等级。数据收集过程涉及从微博社交平台“走饭”博客抓取评论,并使用大型语言模型进行初步标注,随后由领域专家进行二次审查和标注。为了保护用户隐私,所有信息如用户ID均被匿名化处理。
使用方法
使用SOS-1K数据集时,首先需要对数据进行预处理,包括文本数据的填充或截断。然后,可以选用预训练的语言模型进行自杀风险分类任务的训练,包括细粒度多类自杀风险分类和高低自杀风险二分类。在训练过程中,可以使用加权平均精确度、召回率和F1分数作为评估指标。为了解决类别不平衡问题,可以采用数据增强技术,如同义词替换、往返翻译或利用大型语言模型生成数据。此外,可以通过5折交叉验证来确保模型的鲁棒性。所有模型设置、数据和代码均公开可用,方便研究人员进行进一步的探索和应用。
背景与挑战
背景概述
在社交媒体中,用户经常表达个人情感,其中一部分可能表明潜在的自杀倾向。互联网语言的隐晦和多样性形式使得在社交媒体上准确快速地识别自杀意图变得复杂,从而给及时干预工作带来了挑战。开发用于自杀风险检测的深度学习模型是一个有希望的解决方案,但在中文语境中,相关数据集的缺乏是一个显著的问题。为了填补这一空白,本研究提出了一个针对细粒度自杀风险分类的中文社交媒体数据集,重点关注自杀意图表达、自杀方法和时间紧迫性等指标。研究评估了七个预训练模型在两个任务上的表现:高风险和低风险,以及在0到10的细粒度自杀风险分类级别上的表现。实验结果表明,深度学习模型在区分高风险和低风险方面表现出良好的性能,最佳模型的F1分数达到88.39%。然而,细粒度自杀风险分类的结果仍然不尽如人意,加权F1分数为50.89%。为了解决数据不平衡和有限数据集规模的问题,研究调查了传统和基于大型语言模型的先进数据增强技术,表明数据增强可以将模型的F1分数提高多达4.65个百分点。值得注意的是,在心理领域数据上预训练的中文MentalBERT模型在两个任务中都表现出优异的性能。这项研究为自动识别自杀个体提供了宝贵的见解,有助于在社交媒体平台上及时进行心理干预。
当前挑战
SOS-1K数据集面临的挑战包括:1)所解决的领域问题,即社交媒体上自杀风险的细粒度分类,这是一个复杂且困难的任务,因为自杀意图的表达形式多种多样,且往往隐晦;2)构建过程中所遇到的挑战,包括数据不平衡和有限的数据集规模。为了解决这些问题,研究探索了多种数据增强技术,包括同义词替换、回译和基于LLM的数据生成。实验结果表明,数据增强可以提高模型的性能,但不同模型对不同数据增强策略的响应不同。此外,研究还发现,将LLM生成的数据量加倍可以提高某些模型的性能,表明数据增强的体积和策略需要根据具体任务和模型架构进行调整。
常用场景
经典使用场景
在社交媒体平台中,用户常常表达个人情感,其中一部分可能表明潜在的自杀倾向。互联网语言的隐晦性和多样性使得在社交媒体上准确快速地识别自杀意图变得复杂,从而给及时干预工作带来了挑战。SOS-1K数据集旨在解决这一难题,它是一个针对中国社交媒体分析的细粒度自杀风险分类数据集,专注于表达自杀意图、自杀方法和时间紧迫性等指标。通过该数据集,研究者可以训练深度学习模型以识别自杀风险,并据此进行及时的心理干预。
解决学术问题
SOS-1K数据集解决了中国社交媒体自杀风险识别研究中数据集缺乏的问题。以往的研究往往依赖于粗粒度的分类方法,而SOS-1K数据集提供了细粒度的自杀风险分类标签,使得研究者能够更准确地识别自杀风险。此外,该数据集还通过数据增强技术解决了类别不平衡问题,进一步提升了模型的性能。
实际应用
SOS-1K数据集在实际应用中具有广泛的前景。它可以用于社交媒体平台上的自杀风险监测和干预,帮助平台及时发现和干预潜在的自杀行为。此外,该数据集还可以用于心理健康领域的研究,帮助研究者更好地理解自杀行为,并开发更有效的干预方法。
数据集最近研究
最新研究方向
SOS-1K数据集的最新研究方向主要集中在细粒度自杀风险评估和二元高-低自杀风险分类任务上。研究评估了七种预训练语言模型在这两项任务上的表现,并探索了三种数据增强方法来解决细粒度任务中的类别不平衡问题。结果表明,数据增强能够提高模型性能,而LLM生成的数据对性能提升贡献显著。特别是中文MentalBERT模型在两项任务中都表现出色,这突出了领域特定预训练模型的优势。未来研究可以探索如何进一步增加语义多样性或融入互联网俚语,以更好地反映在线语言的实际使用情况,并训练模型以检测文本中的微妙情感和语义线索,从而增强对细粒度情感的理解能力。
相关研究论文
- 1SOS-1K: A Fine-grained Suicide Risk Classification Dataset for Chinese Social Media Analysis北京工业大学软件工程学院 · 2024年
以上内容由遇见数据集搜集并总结生成



