five

seara/ru_go_emotions

收藏
Hugging Face2023-08-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/seara/ru_go_emotions
下载链接
链接失效反馈
官方服务:
资源简介:
Ru-GoEmotions数据集是Google GoEmotions情感分类数据集的翻译版本,主要特点是增加了俄语翻译文本的`ru_text`列。数据集包含两个配置:`raw`和`simplified`。`raw`配置包含原始特征,如文本、作者、子论坛、情感标签等;`simplified`配置则简化了特征,主要包含俄语文本、原始文本和情感标签。数据集的任务类别包括文本分类、翻译、情感分析等,语言为俄语和英语。数据集的来源是GoEmotions数据集,翻译过程中使用了Deep translator工具。
提供机构:
seara
原始信息汇总

数据集概述

数据集配置

原始配置 (raw)

  • 特征:
    • ru_text: 字符串
    • text: 字符串
    • id: 字符串
    • author: 字符串
    • subreddit: 字符串
    • link_id: 字符串
    • parent_id: 字符串
    • created_utc: 浮点数 (float32)
    • rater_id: 整数 (int32)
    • example_very_unclear: 布尔值 (bool)
    • admiration: 整数 (int32)
    • amusement: 整数 (int32)
    • anger: 整数 (int32)
    • annoyance: 整数 (int32)
    • approval: 整数 (int32)
    • caring: 整数 (int32)
    • confusion: 整数 (int32)
    • curiosity: 整数 (int32)
    • desire: 整数 (int32)
    • disappointment: 整数 (int32)
    • disapproval: 整数 (int32)
    • disgust: 整数 (int32)
    • embarrassment: 整数 (int32)
    • excitement: 整数 (int32)
    • fear: 整数 (int32)
    • gratitude: 整数 (int32)
    • grief: 整数 (int32)
    • joy: 整数 (int32)
    • love: 整数 (int32)
    • nervousness: 整数 (int32)
    • optimism: 整数 (int32)
    • pride: 整数 (int32)
    • realization: 整数 (int32)
    • relief: 整数 (int32)
    • remorse: 整数 (int32)
    • sadness: 整数 (int32)
    • surprise: 整数 (int32)
    • neutral: 整数 (int32)
  • 分割:
    • train: 211,225个样本, 84,388,976字节
  • 下载大小: 41,128,059字节
  • 数据集大小: 84,388,976字节

简化配置 (simplified)

  • 特征:
    • ru_text: 字符串
    • text: 字符串
    • labels: 序列, 包含28个类别标签
    • id: 字符串
  • 分割:
    • train: 43,410个样本, 10,118,125字节
    • validation: 5,426个样本, 1,261,921字节
    • test: 5,427个样本, 1,254,989字节
  • 下载大小: 7,628,917字节
  • 数据集大小: 12,635,035字节

数据文件

  • 原始配置 (raw):
    • train: raw/train-*
  • 简化配置 (simplified):
    • train: simplified/train-*
    • validation: simplified/validation-*
    • test: simplified/test-*

许可证

  • MIT

任务类别

  • 文本分类
  • 翻译

任务ID

  • 多类别分类
  • 多标签分类
  • 情感分析
  • 情感分类

语言

  • 俄语 (ru)
  • 英语 (en)

数据集名称

  • Ru-GoEmotions

数据集大小类别

  • 10K<n<100K
  • 100K<n<1M

源数据集

  • GoEmotions

标签

  • 情感分类
  • 情感
  • Reddit
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作