Djacon/ru_goemotions
收藏Hugging Face2023-04-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Djacon/ru_goemotions
下载链接
链接失效反馈官方服务:
资源简介:
RuGoEmotions数据集包含34k条Reddit评论,标注了9种情感类别(如喜悦、兴趣、惊讶、悲伤、愤怒、厌恶、恐惧、内疚和中性)。数据集已经预定义了训练/验证/测试集的分割。数据集主要用于多类、多标签的情感分类任务,数据语言为俄语。数据集的创建目的是为了改进情感表达的理解,适用于多种下游任务。数据来源是Reddit评论,注释由印度的英语母语者完成。数据集包含Reddit用户的原始用户名,可能存在个人身份信息泄露的风险。
提供机构:
Djacon
原始信息汇总
RuGoEmotions 数据集概述
数据集描述
数据集总结
- 数据量: 包含34,000条Reddit评论。
- 情感类别: 9种情感类别,包括喜悦、兴趣、惊讶、悲伤、愤怒、厌恶、恐惧、内疚和中性。
- 预定义分割: 已预先定义训练集、验证集和测试集。
支持的任务和排行榜
- 任务类型: 多类别、多标签情感分类。
语言
- 语言: 俄语。
数据集结构
数据实例
- 实例描述: 每个实例为一条Reddit评论,附带一个或多个情感标签(或中性)。
数据字段
- 字段配置:
text: Reddit评论文本。labels: 情感标签。
数据分割
- 分割详情: 训练集26,900条,验证集3,290条,测试集3,370条。
数据集创建
数据收集和规范化
- 数据来源: Reddit评论,通过多种自动化方法收集。
- 语言生产者: 英语母语的Reddit用户。
注释
- 注释者: 3名英语母语的印度众包工作者。
个人和敏感信息
- 信息包含: 包含原始Reddit用户名,可能关联到个人真实身份。
使用数据集的考虑
社会影响
- 潜在应用: 改善人机交互等。
- 潜在滥用: 在招聘决策、保险定价等领域可能被误用。
偏见讨论
- 潜在偏见: 包括Reddit用户偏见、数据过滤使用的攻击性/粗俗词汇列表、注释者的无意识偏见等。
附加信息
数据集管理者
- 管理者: 来自Amazon Alexa、Google Research和Stanford的研究人员。
许可证信息
- 许可证: Apache License 2.0。
引用信息
-
引用格式:
@inproceedings{demszky2020goemotions, author = {Demszky, Dorottya and Movshovitz-Attias, Dana and Ko, Jeongwoo and Cowen, Alan and Nemade, Gaurav and Ravi, Sujith}, booktitle = {58th Annual Meeting of the Association for Computational Linguistics (ACL)}, title = {{GoEmotions: A Dataset of Fine-Grained Emotions}}, year = {2020} }



