five

Djacon/ru_goemotions

收藏
Hugging Face2023-04-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Djacon/ru_goemotions
下载链接
链接失效反馈
官方服务:
资源简介:
RuGoEmotions数据集包含34k条Reddit评论,标注了9种情感类别(如喜悦、兴趣、惊讶、悲伤、愤怒、厌恶、恐惧、内疚和中性)。数据集已经预定义了训练/验证/测试集的分割。数据集主要用于多类、多标签的情感分类任务,数据语言为俄语。数据集的创建目的是为了改进情感表达的理解,适用于多种下游任务。数据来源是Reddit评论,注释由印度的英语母语者完成。数据集包含Reddit用户的原始用户名,可能存在个人身份信息泄露的风险。
提供机构:
Djacon
原始信息汇总

RuGoEmotions 数据集概述

数据集描述

数据集总结

  • 数据量: 包含34,000条Reddit评论。
  • 情感类别: 9种情感类别,包括喜悦、兴趣、惊讶、悲伤、愤怒、厌恶、恐惧、内疚和中性。
  • 预定义分割: 已预先定义训练集、验证集和测试集。

支持的任务和排行榜

  • 任务类型: 多类别、多标签情感分类。

语言

  • 语言: 俄语。

数据集结构

数据实例

  • 实例描述: 每个实例为一条Reddit评论,附带一个或多个情感标签(或中性)。

数据字段

  • 字段配置:
    • text: Reddit评论文本。
    • labels: 情感标签。

数据分割

  • 分割详情: 训练集26,900条,验证集3,290条,测试集3,370条。

数据集创建

数据收集和规范化

  • 数据来源: Reddit评论,通过多种自动化方法收集。
  • 语言生产者: 英语母语的Reddit用户。

注释

  • 注释者: 3名英语母语的印度众包工作者。

个人和敏感信息

  • 信息包含: 包含原始Reddit用户名,可能关联到个人真实身份。

使用数据集的考虑

社会影响

  • 潜在应用: 改善人机交互等。
  • 潜在滥用: 在招聘决策、保险定价等领域可能被误用。

偏见讨论

  • 潜在偏见: 包括Reddit用户偏见、数据过滤使用的攻击性/粗俗词汇列表、注释者的无意识偏见等。

附加信息

数据集管理者

  • 管理者: 来自Amazon Alexa、Google Research和Stanford的研究人员。

许可证信息

  • 许可证: Apache License 2.0。

引用信息

  • 引用格式:

    @inproceedings{demszky2020goemotions, author = {Demszky, Dorottya and Movshovitz-Attias, Dana and Ko, Jeongwoo and Cowen, Alan and Nemade, Gaurav and Ravi, Sujith}, booktitle = {58th Annual Meeting of the Association for Computational Linguistics (ACL)}, title = {{GoEmotions: A Dataset of Fine-Grained Emotions}}, year = {2020} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作