dynopii/IndicVarna-100k

Name: dynopii/IndicVarna-100k
Creator: dynopii
Published: 2024-05-24 21:49:24
License: 暂无描述

Hugging Face2024-05-24 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/dynopii/IndicVarna-100k

下载链接

链接失效反馈

官方服务：

资源简介：

IndicVarna数据集是通过Google Translate将dair-ai/emotion数据集中的样本翻译成印度最常用的10种语言而创建的。每个语言包含10000个样本，每个样本被翻译成3种情感标签：负面、中性和正面。数据集包含三个列：uuid、text和label。uuid是原始uuid与语言代码的拼接。数据集支持多种下游任务，如文本分类、文本生成和翻译。

提供机构：

dynopii

原始信息汇总

数据集概述

基本信息

语言支持: 英语 (en), 印地语 (hi), 孟加拉语 (bn), 古吉拉特语 (gu), 乌尔都语 (ur), 卡纳达语 (kn), 马拉地语 (mr), 旁遮普语 (pa), 泰米尔语 (ta), 泰卢固语 (te)
许可证: MIT
大小: 10K<n<100K

任务类别

文本分类
翻译
句子相似度
填充掩码
文本生成

数据集特征

text: 字符串类型
label: 整数类型 (int64)
uuid: 字符串类型

数据集拆分

训练集:
- 字节数: 31545825
- 示例数: 100020

下载与数据集大小

下载大小: 15044925
数据集大小: 31545825

配置

默认配置:
- 数据文件:
  - 拆分: 训练
  - 路径: data/train-*

语言样本数量

每种语言包含 10000 样本
每种情感类别包含 3334 样本

使用场景

文本分类 (情感分析模型, 相似度模型)
文本生成 (填充掩码, 生成等)
翻译 (用于训练不同语言间的翻译模型)

5,000+

优质数据集

54 个

任务类型

进入经典数据集