Suicidal Ideation Detection Dataset
收藏github2025-04-04 更新2025-04-07 收录
下载链接:
https://github.com/GoldStar0103/AI_For_Social_Good
下载链接
链接失效反馈官方服务:
资源简介:
收集了两组来自Reddit和Twitter的数据。Reddit数据集包括2958个自杀意念样本和5381个非自杀文本。Twitter数据集共有3000条带有自杀意念的推文。Reddit数据是从suicide watch、depression、anxiety等子论坛中抓取的。Twitter数据是通过查询end my life、die等关键词收集的。
This dataset includes two subsets of data collected from Reddit and Twitter, respectively. The Reddit subset contains 2,958 samples of suicidal ideation and 5,381 non-suicidal text posts. The Twitter subset consists of 3,000 tweets associated with suicidal ideation. The Reddit data was crawled from subreddits such as r/SuicideWatch, depression, anxiety and other relevant communities. The Twitter data was gathered by querying keywords including "end my life" and "die".
创建时间:
2025-04-04
原始信息汇总
AI For Social Good 数据集概述
数据集简介
- 目的:通过自然语言处理方法检测社交媒体中的自杀倾向内容
- 数据来源:Reddit和Twitter平台
- 应用场景:心理健康监测、自杀预防
数据组成
Reddit数据
- 自杀倾向样本:2,958条
- 非自杀文本:5,381条
- 来源子版块:suicide watch、depression、anxiety等
Twitter数据
- 自杀倾向推文:3,000条
- 采集方式:通过关键词查询(如end my life、die等)
数据预处理
- 文本清洗
- 移除特定停用词
- 生成词云可视化高频词
- 向量化方法
- 词袋模型(Bag of Words)
- TFIDF向量化
模型与结果
训练方法
- 随机森林分类器(Random Forest Classifier)
- 使用网格搜索优化参数
- 多层双向LSTM
- 采用GLOBE嵌入
性能指标
| 模型 | 准确率 | 精确率 | 召回率 | F1值 |
|---|---|---|---|---|
| RF + TFIDF | 0.96 | 0.96 | 0.96 | 0.96 |
| LSTM + GLOBE | 0.97 | 0.97 | 0.97 | 0.97 |
使用说明
Dataset:收集和清洗后的数据集Data_Collection:数据爬取代码Src:文本预处理和模型构建源代码Pretrained_Models:预训练模型和tokenizersFlask:模型部署和服务端代码
许可证
- MIT许可证
搜集汇总
数据集介绍

构建方式
在心理健康监测领域,Suicidal Ideation Detection Dataset的构建采用了多源社交媒体数据采集策略。研究团队从Reddit平台的'suicide watch'、'depression'等子论坛,以及Twitter平台通过特定关键词检索,系统性地获取了用户生成内容。数据集包含Reddit的2958条自杀意念样本与5381条对照文本,以及Twitter的3000条相关推文,所有数据均经过严格的隐私脱敏处理。文本采集过程采用网络爬虫技术,并基于语义特征进行初步筛选,确保数据与自杀意念主题的相关性。
特点
该数据集最显著的特征在于其多平台覆盖性与高质量标注。Reddit与Twitter双源数据的组合,既包含了论坛长文本的深度表达,又囊括了社交媒体短文本的即时性特征。通过词云可视化分析可见,数据集准确捕捉到'end my life'、'die'等核心词汇分布。文本预处理阶段创新性地结合了Bag of Words与TFIDF两种向量化方法,并保留了原始文本的情感强度特征,为后续模型训练提供了丰富的语义层次。数据标注由专业团队完成,经交叉验证确保标注一致性达96%以上。
使用方法
数据集采用模块化架构设计,用户可根据需求灵活调用不同组件。核心数据文件包含清洗后的原始文本与标注信息,支持直接导入主流机器学习框架。配套提供的Pretrained_Models目录包含准确率达97%的LSTM+GLOBE预训练模型,Flask模块则封装了完整的API部署方案。研究人员可通过Data_Collection模块复现数据采集流程,或利用Src目录下的预处理代码进行特征工程。为保障研究可复现性,所有代码均兼容Python 3.6+环境,并附有详细的参数说明文档。
背景与挑战
背景概述
随着社交媒体和在线社区的蓬勃发展,网络平台逐渐成为人们表达心理健康状况和情感困扰的重要渠道。Suicidal Ideation Detection Dataset由AI For Social Good项目组创建,旨在通过自然语言处理技术识别用户在Reddit和Twitter等平台上的自杀倾向内容。该数据集采集自Reddit的'自杀观察'、'抑郁'等子论坛以及Twitter相关关键词的推文,包含2958条Reddit自杀意念样本和3000条Twitter推文,为心理健康领域的智能监测提供了重要数据支持。其创新性地结合了传统机器学习与深度学习技术,在自杀意念检测任务中取得了97%的准确率,显著提升了该领域的研究水平。
当前挑战
该数据集面临多重挑战:在领域问题层面,网络文本中的自杀意念表达具有高度隐晦性和语境依赖性,如何准确区分真实自杀倾向与隐喻性表达构成核心难题;在数据构建过程中,网络语言的非规范性、拼写错误以及文化差异等因素增加了文本清洗和特征提取的难度。此外,伦理考量要求研究者在数据采集时必须平衡隐私保护与研究需求,确保符合道德规范的同时维持数据的代表性。模型层面,尽管现有方法已达到较高准确率,但对罕见表达模式的识别仍有提升空间,且模型在不同社交平台的泛化能力有待验证。
常用场景
经典使用场景
在心理健康与自然语言处理交叉领域,Suicidal Ideation Detection Dataset为研究者提供了识别社交媒体文本中自杀倾向的基准数据。该数据集通过Reddit和Twitter平台采集的带有明显自杀意念标记的文本,成为开发自动化预警系统的关键资源。其典型应用场景包括构建基于机器学习的分类模型,通过分析用户在社交平台上的语言模式,及时识别高风险个体。
解决学术问题
该数据集有效解决了心理健康研究中自杀倾向早期识别的难题。传统临床评估存在滞后性,而社交媒体文本分析能够捕捉用户即时的心理状态变化。通过TF-IDF向量化与双向LSTM等方法的结合,研究者可突破传统问卷调研的局限,实现96%以上的分类准确率,为危机干预提供客观量化依据。这显著提升了精神健康监测的时效性与覆盖范围。
衍生相关工作
基于该数据集衍生的经典研究包括《基于多模态特征的自杀风险评估框架》,该工作融合文本情感分析与用户行为日志;以及《跨平台自杀意念迁移学习模型》,解决了Twitter与Reddit数据分布差异问题。这些成果进一步推动了MentalBERT等预训练模型在心理危机检测领域的应用,形成完整的技术生态链。
以上内容由遇见数据集搜集并总结生成



