PrevenIA/spanish-suicide-intent
收藏Hugging Face2023-10-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PrevenIA/spanish-suicide-intent
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自多个来源的评论,这些评论被翻译成西班牙语并分类为自杀意念/行为和非自杀。数据集的结构包括文本、标签和数据集来源字段。数据集的创建过程涉及多个来源的数据整合,包括Kaggle、GitHub和其他研究论文。使用该数据集时需要考虑其社会影响和潜在的偏见。
该数据集包含来自多个来源的评论,这些评论被翻译成西班牙语并分类为自杀意念/行为和非自杀。数据集的结构包括文本、标签和数据集来源字段。数据集的创建过程涉及多个来源的数据整合,包括Kaggle、GitHub和其他研究论文。使用该数据集时需要考虑其社会影响和潜在的偏见。
提供机构:
PrevenIA
原始信息汇总
数据集概述
该数据集包含从多个来源翻译成西班牙语的评论,并分类为自杀意念/行为和非自杀。
数据集结构
数据集包含175010行(77223行被视为自杀意念/行为,97787行被视为非自杀)。
数据集字段
Text: 用户评论。Label: 1表示自杀意念/行为;0表示非自杀评论。Dataset: 评论的来源。
数据集创建
数据集来源包括:
- 112385条(84485条非自杀,27905条自杀)来自Suicide Watch数据集。
- 46894条(46894条自杀)来自TwitterSuicidalAnalysis。
- 9919条(9183条非自杀,736条自杀)来自Hackaton Somos NLP生成的语料库。
- 8744条(4802条非自杀,3942条自杀)来自论文An Attention-based hybrid architecture with explainability for depressive social media text detection in Bangla。
- 7084条(3559条非自杀,3525条自杀)来自论文Supervised Learning for Suicidal Ideation Detection in Online User Content。
- 1972条(1540条非自杀,432条自杀)来自论文Detection of Suicidal Intent in Spanish Language Social Networks using Machine Learning。
- 1769条(1122条非自杀,647条自杀)来自语料库Suicidal Tweet Detection。
- 316条(204条非自杀,112条自杀)来自论文Data Mining Approach to the Detection of Suicide in Social Media: A Case Study of Singapore。
使用数据的注意事项
数据集的社会影响
该数据集可能包含一些检测自杀意念/行为的模式。
偏见讨论
没有采取措施来估计数据集中嵌入的偏见和毒性。然而,大部分数据收集自Reddit、Twitter和ChatGPT。因此,可能存在年龄偏见,因为互联网更多地被年轻人使用。



