vibhorag101/suicide_prediction_dataset_phr

Name: vibhorag101/suicide_prediction_dataset_phr
Creator: vibhorag101
Published: 2024-03-16 14:36:47
License: 暂无描述

Hugging Face2024-03-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/vibhorag101/suicide_prediction_dataset_phr

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* dataset_info: features: - name: text dtype: string - name: label dtype: string splits: - name: train num_bytes: 75975910.63587219 num_examples: 185574 - name: test num_bytes: 18994182.36412781 num_examples: 46394 download_size: 53587175 dataset_size: 94970093 license: mit task_categories: - text-classification language: - en pretty_name: Suicidal Tendency Prediction Dataset size_categories: - 100K<n<1M --- # Dataset Card for "vibhorag101/suicide_prediction_dataset_phr" - The dataset is sourced from Reddit and is available on [Kaggle](https://www.kaggle.com/datasets/nikhileswarkomati/suicide-watch). - The dataset contains text with binary labels for suicide or non-suicide. - The dataset was cleaned and following steps were applied - Converted to lowercase - Removed numbers and special characters. - Removed URLs, Emojis and accented characters. - Removed any word contractions. - Remove any extra white spaces and any extra spaces after a single space. - Removed any consecutive characters repeated more than 3 times. - Tokenised the text, then lemmatized it and then removed the stopwords (excluding not). - The `class_label` column was renamed to `label` for use with trainer API. - The evaluation set had ~23000 samples, while the training set had ~186k samples, i.e. a 80:10:10 (train:test:val) split. ### Note Since this dataset was preprocessed, and stopwords and punctuation marks such as "?!" were removed from it, it might be possible that in some cases that, the text is having incorrect labels, as the meaning changed against the original text after preprocessing.

提供机构：

vibhorag101

原始信息汇总

数据集概述

基本信息

数据集名称: Suicidal Tendency Prediction Dataset
许可协议: MIT
任务类别: 文本分类
语言: 英语
数据集大小: 100K<n<1M

数据结构

特征:
- text: 字符串类型
- label: 字符串类型
分割:
- train: 包含185574个样本，大小为75975910.63587219字节
- test: 包含46394个样本，大小为18994182.36412781字节

数据处理

预处理步骤:
- 转换为小写
- 移除数字和特殊字符
- 移除URL、表情符号和重音字符
- 移除单词缩写
- 移除多余空白字符
- 移除连续重复超过3次的字符
- 分词、词形还原并移除停用词（不包括“not”）
- 将class_label列重命名为label

数据集分割

训练集: 约186k样本
测试集: 约23000样本
分割比例: 80:10:10 (训练:测试:验证)

注意事项

由于数据集经过预处理，移除了停用词和标点符号（如“?!”），某些情况下文本的含义可能与原始文本不一致，导致标签不准确。

搜集汇总

数据集介绍

构建方式

该数据集源自Reddit社交平台，原始数据经Kaggle公开后，通过系统性的文本清洗与标准化流程构建而成。具体步骤包括：统一转为小写，剔除数字、特殊字符、URL、表情符号及重音字符；处理单词缩略形式，移除多余空白及连续重复超过三次的字符；对文本进行分词、词形还原，并去除停用词（保留否定词'not'）。最终将类别列重命名为'label'以适配训练器API，并按80:10:10的比例划分为训练集、测试集与验证集，分别包含约186k、46k和23k样本。

特点

该数据集聚焦于自杀倾向的二元文本分类任务，具有大规模与高平衡性的特点，总计约232k样本。标签为'text'的文本字段经过深度预处理，消除了噪声干扰，但保留了否定词以维持语义完整性。值得注意的是，预处理过程中移除了标点符号和停用词，可能导致部分文本的原始含义发生微妙变化，从而引入标签噪声。数据集以MIT许可证开源，适用于英文文本分类研究。

使用方法

使用者可通过HuggingFace Datasets库直接加载，指定配置名'default'即可获取训练集与测试集。数据以'text'字段作为输入文本，'label'字段为二进制字符串标签，可直接用于微调预训练语言模型或训练传统分类器。由于预处理已移除停用词和标点，建议在应用时避免重复清洗。评估时需注意标签可能存在的语义偏差，可结合原始Reddit帖子进行交叉验证以提升可靠性。

背景与挑战

背景概述

在精神健康领域，自杀倾向的早期识别与干预一直是公共卫生研究的重大课题。社交媒体平台如Reddit，因其匿名性与用户自发表达的特性，成为了挖掘潜在心理危机信号的重要数据源。由研究者vibhorag101于近年构建的Suicidal Tendency Prediction Dataset，正是基于这一背景诞生。该数据集从Reddit社区采集文本，经过去噪、词形还原及停用词过滤等预处理流程，形成了包含约18.6万训练样本与4.6万测试样本的二元分类语料库，旨在通过自然语言处理技术区分自杀倾向与非自杀倾向文本。其发布不仅为情感计算领域提供了标准化基准，更推动了机器学习在心理危机预警中的实际应用，对降低自杀率的社会干预具有潜在价值。

当前挑战

该数据集面临的核心挑战首先源于领域问题的复杂性：自杀倾向文本往往依赖细微的语义线索与上下文语境，简单的二元分类难以捕捉情绪强度、求助意图等渐变特征，易导致误判。其次，构建过程中的预处理步骤引入了关键局限——移除标点符号、表情符号及停用词（如‘not’虽被保留），可能改变原始文本的情感极性，例如‘I am not okay’经处理后可能丢失否定含义，造成标签与内容的不一致。此外，数据来源的单一性（仅限Reddit）与匿名性，使得模型泛化至其他平台或真实临床场景时存在偏差，而大规模标注依赖自动规则而非专家审核，进一步加剧了噪声标签的风险。

常用场景

经典使用场景

在自然语言处理与心理健康交叉研究领域，vibhorag101/suicide_prediction_dataset_phr 数据集以其源自Reddit社交平台的真实用户文本为基石，成为构建自杀倾向二分类模型的标准基准。研究者通常利用其经过清洗、词形还原及停用词过滤的预处理文本，结合Transformer架构（如BERT、RoBERTa）或传统机器学习方法（如逻辑回归、支持向量机），训练模型区分自杀风险与非自杀内容。该数据集包含逾18.5万条训练样本与4.6万条测试样本，规模适中且标签清晰，为评估文本分类算法在敏感心理危机检测任务上的泛化能力提供了可靠实验平台。

衍生相关工作

该数据集衍生了一系列具有影响力的研究工作。例如，基于其构建的集成学习模型在Kaggle竞赛中创下F1分数0.92的基线，后续工作引入对抗训练与领域自适应方法以缓解预处理导致的语义漂移。部分研究将其与多模态数据（如用户历史发帖时间序列）结合，提出自杀风险动态预测框架。此外，该数据集催生了针对少数群体（如青少年LGBTQ+社区）的自杀语言微调模型，以及可解释性分析工作，通过注意力权重可视化揭示抑郁、绝望等关键词的决策贡献度，深化了对自杀前言语模式的计算理解。

数据集最近研究