mrm8488/goemotions
收藏数据集概述
名称: GoEmotions
描述: GoEmotions包含58,009条精心筛选的Reddit评论,标记有27种情感类别或中性。情感类别包括:admiration, amusement, anger, annoyance, approval, caring, confusion, curiosity, desire, disappointment, disapproval, disgust, embarrassment, excitement, fear, gratitude, grief, joy, love, nervousness, optimism, pride, realization, relief, remorse, sadness, surprise。
数据集大小:
- 训练数据集: 43,410条
- 测试数据集: 5,427条
- 验证数据集: 5,426条
数据格式:
- 原始数据分为三个CSV文件,包含所有注释及评论的元数据。每行代表一个评注者对单个例子的注释。
- 训练、开发和测试数据集文件(
train.tsv,dev.tsv,test.tsv)无标题行,包含文本、逗号分隔的情感ID列表和评论ID。
数据获取:
-
原始数据可通过以下命令下载:
wget -P data/full_dataset/ https://storage.googleapis.com/gresearch/goemotions/data/full_dataset/goemotions_1.csv wget -P data/full_dataset/ https://storage.googleapis.com/gresearch/goemotions/data/full_dataset/goemotions_2.csv wget -P data/full_dataset/ https://storage.googleapis.com/gresearch/goemotions/data/full_dataset/goemotions_3.csv
数据集局限性:
- 数据集存在偏见,不代表全球多样性。
- 包含潜在问题内容。
- 评注者均为印度本土英语使用者,可能影响标签的准确性和召回率。




