somosnlp-hackathon-2023/suicide-comments-es
收藏Hugging Face2023-04-10 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp-hackathon-2023/suicide-comments-es
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由来自Reddit、Twitter的评论以及Alpaca数据集的西班牙语翻译组成,内容被分类为自杀意念/行为和非自杀性。数据集包含10050行数据,其中777行被标记为自杀意念/行为,9273行被标记为非自杀性。数据集的创建过程涉及从多个来源收集数据,包括Columbia Suicide Severity Rating Scale (C-SSRS)、Twitter自杀意图数据集以及公开论坛和博客的手动添加数据。此外,数据集的使用考虑了社会影响和潜在的偏见问题。
该数据集由来自Reddit、Twitter的评论以及Alpaca数据集的西班牙语翻译组成,内容被分类为自杀意念/行为和非自杀性。数据集包含10050行数据,其中777行被标记为自杀意念/行为,9273行被标记为非自杀性。数据集的创建过程涉及从多个来源收集数据,包括Columbia Suicide Severity Rating Scale (C-SSRS)、Twitter自杀意图数据集以及公开论坛和博客的手动添加数据。此外,数据集的使用考虑了社会影响和潜在的偏见问题。
提供机构:
somosnlp-hackathon-2023
原始信息汇总
数据集概述
基本信息
- 任务类别:文本分类
- 语言:西班牙语
- 数据集大小:1K<n<10K
- 许可证:Apache-2.0
数据集描述
数据集结构
- 总行数:10050
- 分类:
- 自杀意念/行为:777
- 非自杀:9273
数据集字段
- Text:用户评论
- Label:
- 1:自杀意念/行为
- 0:非自杀评论
数据集创建
自杀意念/行为
- 来源:
- 90行来自Columbia Suicide Severity Rating Scale (C-SSRS)
- 519行来自Twitter自杀意图数据集
- 168行手动添加自公共论坛和博客
- 翻译工具:Helsinki-NLP/opus-mt-en-es
- 过滤:通过OpenAI的Moderation API验证
非自杀
- 来源:
- 5000行来自somosnlp/somos-clean-alpaca-es的指令
- 2000行来自somosnlp/somos-clean-alpaca-es的输出
- 2000行来自Columbia Suicide Severity Rating Scale (C-SSRS)
- 100行来自ziq/depression_advice
- 100行手动添加自公共论坛、博客和播客
- 翻译工具:Helsinki-NLP/opus-mt-en-es
使用数据注意事项
- 社会影响:可能包含用于检测自杀意念/行为的模式
- 偏见讨论:未采取措施估计数据集中的偏见和毒性,主要数据来自Reddit、Twitter和ChatGPT,可能存在年龄偏见。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



