five

somosnlp-hackathon-2023/suicide-comments-es

收藏
Hugging Face2023-04-10 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp-hackathon-2023/suicide-comments-es
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由来自Reddit、Twitter的评论以及Alpaca数据集的西班牙语翻译组成,内容被分类为自杀意念/行为和非自杀性。数据集包含10050行数据,其中777行被标记为自杀意念/行为,9273行被标记为非自杀性。数据集的创建过程涉及从多个来源收集数据,包括Columbia Suicide Severity Rating Scale (C-SSRS)、Twitter自杀意图数据集以及公开论坛和博客的手动添加数据。此外,数据集的使用考虑了社会影响和潜在的偏见问题。

该数据集由来自Reddit、Twitter的评论以及Alpaca数据集的西班牙语翻译组成,内容被分类为自杀意念/行为和非自杀性。数据集包含10050行数据,其中777行被标记为自杀意念/行为,9273行被标记为非自杀性。数据集的创建过程涉及从多个来源收集数据,包括Columbia Suicide Severity Rating Scale (C-SSRS)、Twitter自杀意图数据集以及公开论坛和博客的手动添加数据。此外,数据集的使用考虑了社会影响和潜在的偏见问题。
提供机构:
somosnlp-hackathon-2023
原始信息汇总

数据集概述

基本信息

  • 任务类别:文本分类
  • 语言:西班牙语
  • 数据集大小:1K<n<10K
  • 许可证:Apache-2.0

数据集描述

  • 内容:包含Reddit、Twitter上的评论以及Alpaca数据集的输入输出,已翻译为西班牙语,并分类为自杀意念/行为和非自杀。
  • 示例模型链接
  • 示例空间链接

数据集结构

  • 总行数:10050
  • 分类
    • 自杀意念/行为:777
    • 非自杀:9273

数据集字段

  • Text:用户评论
  • Label
    • 1:自杀意念/行为
    • 0:非自杀评论

数据集创建

自杀意念/行为

  • 来源
    • 90行来自Columbia Suicide Severity Rating Scale (C-SSRS)
    • 519行来自Twitter自杀意图数据集
    • 168行手动添加自公共论坛和博客
  • 翻译工具:Helsinki-NLP/opus-mt-en-es
  • 过滤:通过OpenAI的Moderation API验证

非自杀

  • 来源
    • 5000行来自somosnlp/somos-clean-alpaca-es的指令
    • 2000行来自somosnlp/somos-clean-alpaca-es的输出
    • 2000行来自Columbia Suicide Severity Rating Scale (C-SSRS)
    • 100行来自ziq/depression_advice
    • 100行手动添加自公共论坛、博客和播客
  • 翻译工具:Helsinki-NLP/opus-mt-en-es

使用数据注意事项

  • 社会影响:可能包含用于检测自杀意念/行为的模式
  • 偏见讨论:未采取措施估计数据集中的偏见和毒性,主要数据来自Reddit、Twitter和ChatGPT,可能存在年龄偏见。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作