dynopii/IndicVarna-100k
收藏Hugging Face2024-05-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/dynopii/IndicVarna-100k
下载链接
链接失效反馈官方服务:
资源简介:
IndicVarna数据集是通过Google Translate将dair-ai/emotion数据集中的样本翻译成印度最常用的10种语言而创建的。每个语言包含10000个样本,每个样本被翻译成3种情感标签:负面、中性和正面。数据集包含三个列:uuid、text和label。uuid是原始uuid与语言代码的拼接。数据集支持多种下游任务,如文本分类、文本生成和翻译。
IndicVarna数据集是通过Google Translate将dair-ai/emotion数据集中的样本翻译成印度最常用的10种语言而创建的。每个语言包含10000个样本,每个样本被翻译成3种情感标签:负面、中性和正面。数据集包含三个列:uuid、text和label。uuid是原始uuid与语言代码的拼接。数据集支持多种下游任务,如文本分类、文本生成和翻译。
提供机构:
dynopii
原始信息汇总
数据集概述
基本信息
- 语言支持: 英语 (
en), 印地语 (hi), 孟加拉语 (bn), 古吉拉特语 (gu), 乌尔都语 (ur), 卡纳达语 (kn), 马拉地语 (mr), 旁遮普语 (pa), 泰米尔语 (ta), 泰卢固语 (te) - 许可证: MIT
- 大小: 10K<n<100K
任务类别
- 文本分类
- 翻译
- 句子相似度
- 填充掩码
- 文本生成
数据集特征
- text: 字符串类型
- label: 整数类型 (int64)
- uuid: 字符串类型
数据集拆分
- 训练集:
- 字节数: 31545825
- 示例数: 100020
下载与数据集大小
- 下载大小: 15044925
- 数据集大小: 31545825
配置
- 默认配置:
- 数据文件:
- 拆分: 训练
- 路径: data/train-*
- 数据文件:
标签
- 情感分类:
- 0: 负面
- 1: 中性
- 2: 正面
语言样本数量
- 每种语言包含
10000样本 - 每种情感类别包含
3334样本
使用场景
- 文本分类 (情感分析模型, 相似度模型)
- 文本生成 (填充掩码, 生成等)
- 翻译 (用于训练不同语言间的翻译模型)



