astromis/presuicidal_signals

Name: astromis/presuicidal_signals
Creator: astromis
Published: 2024-01-05 12:43:23
License: 暂无描述

Hugging Face2024-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/astromis/presuicidal_signals

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专门用于检测文本中的自杀信号，特别是针对俄语文本。数据集由Igor Buyanov整理，包含两类标签：正常文本（0）和包含潜在自杀信号的文本（1）。数据集分为训练集和测试集，分别包含22787和9767个样本。数据集来源于俄罗斯Twitter用户的账户，可能包含一些个人信息。数据集的创建目的是帮助心理学家更快地分析潜在自杀者的账户，以便找到有助于治疗的线索和事实。

提供机构：

astromis

原始信息汇总

数据集卡片 for presuicidal signal detection

数据集描述

数据集名称: Dataset for presuicidal signal detection
语言: 俄语
许可证: MIT
数据集创建者: Igor Buyanov (buyanov.igor.o@yandex.ru)

数据集结构

特征

text: 字符串类型
label: 64位整数类型

分割

train: 22787个样本，4006893字节
test: 9767个样本，1721497字节

数据集大小

下载大小: 3145819字节
数据集大小: 5728390字节

数据集用途

该数据集旨在用于训练模型，帮助心理学家更快地分析潜在自杀倾向者的账户，以发现有助于治疗的线索和事实。

数据集创建

源数据

来自Twitter上标记为有自杀倾向的俄罗斯人的账户。

个人和敏感信息

数据集可能包含Twitter用户自己分享的一些个人信息。

引用

BibTeX: bibtex @article{Buyanov2022TheDF, title={The dataset for presuicidal signals detection in text and its analysis}, author={Igor Buyanov and Ilya Sochenkov}, journal={Computational Linguistics and Intellectual Technologies}, year={2022}, month={June}, number={21}, pages={81--92}, url={https://api.semanticscholar.org/CorpusID:253195162}, }

数据集卡片作者

Igor Buyanov

数据集卡片联系

buyanov.igor.o@yandex.ru

搜集汇总

数据集介绍

构建方式

该数据集源自俄罗斯社交平台Twitter上被标记为具有自杀倾向的用户账户文本，原始数据集包含五个类别，但因部分类别代表性不足及极端不平衡问题，经过重新整理与合并，最终转化为二分类结构，即正常文本（标签0）与包含潜在自杀信号信息的文本（标签1）。数据集的构建由Igor Buyanov主导，并基于Mendeley数据仓库中的原始资料进行清洗与标注，相关标注细节可参阅其发表的论文。最终数据集划分为训练集（22,787条）和测试集（9,767条），以支持后续模型的训练与评估。

使用方法

本数据集适用于文本分类任务的模型训练，旨在辅助心理学家快速分析潜在自杀风险个体的社交文本，从中提取关键线索与事实，以提升临床评估效率。研究者可直接使用HuggingFace上的数据集加载工具，通过指定数据集名称'astromis/presuicidal_signals'获取训练集与测试集，并基于'text'字段作为输入特征、'label'字段作为分类目标进行模型构建。推荐采用预训练语言模型（如BERT）进行微调，以充分利用俄语文本的语义信息，实验设置与基线结果可参考相关论文中的详细描述。

背景与挑战

背景概述

在心理健康与自然语言处理的交叉领域中，自杀倾向的早期识别一直是极具社会意义的研究难点。由Igor Buyanov和Ilya Sochenkov于2022年构建的presuicidal_signals数据集，旨在通过文本分类技术，从俄罗斯社交平台Twitter的用户内容中提取预示自杀风险的语言信号。该数据集由Igor Buyanov主导整理，依托于Mendeley数据库及一篇发表于《Computational Linguistics and Intellectual Technologies》的学术论文，核心研究问题在于如何利用机器学习模型辅助心理学家快速分析潜在自杀倾向者的账号文本，从而为临床干预提供线索。该数据集的出现填补了俄语自杀预警语料库的空白，为多语言自杀风险检测研究提供了重要参照，其影响力尤其体现在将情感计算与临床心理学结合的实证探索中。

当前挑战

该数据集面临的核心挑战首先来自领域问题的复杂性：自杀信号在自然语言中往往隐晦且多义，需区分描述负面事件的事实性文本与表达当前消极情绪状态的主观文本，而这两类信号在语义上高度重叠，易导致模型分类混淆。其次，数据构建过程遭遇了显著的类别不平衡问题——原始数据集包含五个类别，但因部分类别样本极度匮乏，不得不被合并为二分类任务，这一简化虽提升了可行性，却可能丢失细粒度风险等级的辨识能力。此外，数据来源为Twitter用户公开内容，其中包含敏感个人信息，如何在伦理合规与模型性能间取得平衡，亦是构建与使用中不可回避的挑战。

常用场景

经典使用场景

在计算语言学和临床心理学交叉领域，该数据集被广泛用于构建自杀风险文本检测模型。其经典使用场景聚焦于从俄语社交媒体文本中识别预示自杀倾向的信号，包括对负面事件的事实性描述（如遭受暴力、住院经历、自残行为）以及当前消极情绪状态（如死亡愿望、自我憎恨、攻击性情绪）。研究者通常将其作为二分类任务基准，训练模型区分正常文本与包含潜在自杀信号的文本，从而辅助心理学家快速筛选高危个体。

解决学术问题

该数据集针对自杀预防研究中的核心挑战——如何从海量非结构化文本中自动捕捉细微的预自杀信号。它解决了传统临床评估依赖主观访谈、难以规模化的问题，为计算语言学提供了标注质量可控的俄语自杀信号语料库。通过将原始五分类不平衡数据重构为二分类结构，该数据集推动了鲁棒性分类算法的开发，使得模型能够更精准地识别隐晦的心理危机线索，显著提升了自杀风险早期预警的自动化研究水平。

实际应用

在实际应用中，该数据集训练的模型被部署于心理健康监测平台，用于实时分析俄语社交媒体用户的内容。它帮助心理咨询师和危机干预团队快速定位可能处于自杀风险中的个体，例如通过标记描述自残经历或表达死亡愿望的帖子，优先安排人工评估。此外，该技术已融入数字医疗辅助系统，支持大规模人群筛查，在保护用户隐私的前提下，为临床干预争取宝贵时间窗口。

数据集最近研究