Alegzandra/REDv2
收藏Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Alegzandra/REDv2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是罗马尼亚情感数据集(RED)的第二版本,包含5449条以多标签方式标注的推文,标注了7种情感:愤怒、恐惧、快乐、悲伤、惊讶、信任和中性。数据集主要用于多类和多标签情感分类任务,语言为罗马尼亚语。数据集结构包括推文文本、唯一标识符、情感标注向量等字段,并提供了训练/验证/测试集的划分。数据集的创建目的是为了自动化情感检测过程,数据来源于罗马尼亚语推特用户,并由66名认知科学学生进行标注。数据集已匿名化处理,去除了用户名和专有名词。
提供机构:
Alegzandra
原始信息汇总
数据集概述
数据集名称
- 名称: Romanian Emotions Dataset (RED) v2
- 版本: 第二版
数据集描述
- 摘要: 包含5449条推文,以多标签方式标注了7种情绪:愤怒(Furie)、恐惧(Frică)、喜悦(Bucurie)、悲伤(Tristețe)、惊讶(Surpriză)、信任(Încredere)和中性(Neutru)。
- 支持的任务: 多类&多标签情绪分类
- 语言: 罗马尼亚语
数据集结构
- 数据实例: 每个实例是一条带有相应ID和一种或多种情绪标注的推文。
- 数据字段:
- text: 推文内容
- text_id: 推文的唯一标识符
- agreed_labels: 同意的情绪标注向量
- procentual_labels: 包含三个值的向量,表示不同注释者对情绪的识别程度
- Anger, Fear, Joy, Neutral, Sadness, Surprise, Trust: 布尔值,表示特定情绪是否在agreed_labels向量中
- annotator1, annotator2, annotator3: 注释者的一维向量
- sum_labels: 注释者向量的总和
- 数据分割: 训练集4088条,验证集818条,测试集543条
数据集创建
- 采集理由: 情绪识别是情感智能的核心,随着社交媒体使用的增加,分析在线内容中的情绪变得日益重要。
- 源数据:
- 收集和标准化: 数据从Twitter收集
- 语言生产者: 罗马尼亚语Twitter用户
- 标注:
- 标注过程: 由66名认知科学学生进行标注
- 标注者: 布加勒斯特大学心理学与教育科学学院的学生
- 个人信息和敏感信息: 所有推文已匿名化,移除了用户名和专有名词
使用数据注意事项
- 社会影响: 情绪分析有助于理解和预测人类行为
- 偏见讨论: 未详细说明
- 其他已知限制: 未详细说明
附加信息
-
数据集管理者: 布加勒斯特大学和Adobe的研究人员
-
许可信息: MIT许可证
-
引用信息:
@inproceedings{redv2, author = "Alexandra Ciobotaru and Mihai V. Constantinescu and Liviu P. Dinu and Stefan Daniel Dumitrescu", title = "{RED} v2: {E}nhancing {RED} {D}ataset for {M}ulti-{L}abel {E}motion {D}etection", journal = "Proceedings of the 13th Language Resources and Evaluation Conference (LREC 2022)", pages = "1392–1399", year = "2022", address = "Marseille, France", publisher = "European Language Resources Association (ELRA)", url = "http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.149.pdf", language = "English" }
-
贡献者: 感谢@Alegzandra添加此数据集。



