seara/ru_go_emotions
收藏Hugging Face2023-08-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/seara/ru_go_emotions
下载链接
链接失效反馈官方服务:
资源简介:
Ru-GoEmotions数据集是Google GoEmotions情感分类数据集的翻译版本,主要特点是增加了俄语翻译文本的`ru_text`列。数据集包含两个配置:`raw`和`simplified`。`raw`配置包含原始特征,如文本、作者、子论坛、情感标签等;`simplified`配置则简化了特征,主要包含俄语文本、原始文本和情感标签。数据集的任务类别包括文本分类、翻译、情感分析等,语言为俄语和英语。数据集的来源是GoEmotions数据集,翻译过程中使用了Deep translator工具。
提供机构:
seara
原始信息汇总
数据集概述
数据集配置
原始配置 (raw)
- 特征:
ru_text: 字符串text: 字符串id: 字符串author: 字符串subreddit: 字符串link_id: 字符串parent_id: 字符串created_utc: 浮点数 (float32)rater_id: 整数 (int32)example_very_unclear: 布尔值 (bool)admiration: 整数 (int32)amusement: 整数 (int32)anger: 整数 (int32)annoyance: 整数 (int32)approval: 整数 (int32)caring: 整数 (int32)confusion: 整数 (int32)curiosity: 整数 (int32)desire: 整数 (int32)disappointment: 整数 (int32)disapproval: 整数 (int32)disgust: 整数 (int32)embarrassment: 整数 (int32)excitement: 整数 (int32)fear: 整数 (int32)gratitude: 整数 (int32)grief: 整数 (int32)joy: 整数 (int32)love: 整数 (int32)nervousness: 整数 (int32)optimism: 整数 (int32)pride: 整数 (int32)realization: 整数 (int32)relief: 整数 (int32)remorse: 整数 (int32)sadness: 整数 (int32)surprise: 整数 (int32)neutral: 整数 (int32)
- 分割:
train: 211,225个样本, 84,388,976字节
- 下载大小: 41,128,059字节
- 数据集大小: 84,388,976字节
简化配置 (simplified)
- 特征:
ru_text: 字符串text: 字符串labels: 序列, 包含28个类别标签id: 字符串
- 分割:
train: 43,410个样本, 10,118,125字节validation: 5,426个样本, 1,261,921字节test: 5,427个样本, 1,254,989字节
- 下载大小: 7,628,917字节
- 数据集大小: 12,635,035字节
数据文件
- 原始配置 (raw):
train:raw/train-*
- 简化配置 (simplified):
train:simplified/train-*validation:simplified/validation-*test:simplified/test-*
许可证
- MIT
任务类别
- 文本分类
- 翻译
任务ID
- 多类别分类
- 多标签分类
- 情感分析
- 情感分类
语言
- 俄语 (ru)
- 英语 (en)
数据集名称
- Ru-GoEmotions
数据集大小类别
- 10K<n<100K
- 100K<n<1M
源数据集
- GoEmotions
标签
- 情感分类
- 情感



