five

dynopii/IndicVarna-100k

收藏
Hugging Face2024-05-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/dynopii/IndicVarna-100k
下载链接
链接失效反馈
官方服务:
资源简介:
IndicVarna数据集是通过Google Translate将dair-ai/emotion数据集中的样本翻译成印度最常用的10种语言而创建的。每个语言包含10000个样本,每个样本被翻译成3种情感标签:负面、中性和正面。数据集包含三个列:uuid、text和label。uuid是原始uuid与语言代码的拼接。数据集支持多种下游任务,如文本分类、文本生成和翻译。

IndicVarna数据集是通过Google Translate将dair-ai/emotion数据集中的样本翻译成印度最常用的10种语言而创建的。每个语言包含10000个样本,每个样本被翻译成3种情感标签:负面、中性和正面。数据集包含三个列:uuid、text和label。uuid是原始uuid与语言代码的拼接。数据集支持多种下游任务,如文本分类、文本生成和翻译。
提供机构:
dynopii
原始信息汇总

数据集概述

基本信息

  • 语言支持: 英语 (en), 印地语 (hi), 孟加拉语 (bn), 古吉拉特语 (gu), 乌尔都语 (ur), 卡纳达语 (kn), 马拉地语 (mr), 旁遮普语 (pa), 泰米尔语 (ta), 泰卢固语 (te)
  • 许可证: MIT
  • 大小: 10K<n<100K

任务类别

  • 文本分类
  • 翻译
  • 句子相似度
  • 填充掩码
  • 文本生成

数据集特征

  • text: 字符串类型
  • label: 整数类型 (int64)
  • uuid: 字符串类型

数据集拆分

  • 训练集:
    • 字节数: 31545825
    • 示例数: 100020

下载与数据集大小

  • 下载大小: 15044925
  • 数据集大小: 31545825

配置

  • 默认配置:
    • 数据文件:
      • 拆分: 训练
      • 路径: data/train-*

标签

  • 情感分类:
    • 0: 负面
    • 1: 中性
    • 2: 正面

语言样本数量

  • 每种语言包含 10000 样本
  • 每种情感类别包含 3334 样本

使用场景

  • 文本分类 (情感分析模型, 相似度模型)
  • 文本生成 (填充掩码, 生成等)
  • 翻译 (用于训练不同语言间的翻译模型)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作