Cognitive-Lab/Aya_Dataset_Indic
收藏Hugging Face2024-03-08 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Cognitive-Lab/Aya_Dataset_Indic
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言(如孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、缅甸语、尼泊尔语、旁遮普语、僧伽罗语、信德语、泰米尔语、泰卢固语和乌尔都语)的文本数据。每个语言的数据集包含输入(inputs)、目标(targets)、语言(language)、语言代码(language_code)、注释类型(annotation_type)和用户ID(user_id)等特征。数据集主要用于训练和测试,但某些语言的测试集为空。
提供机构:
Cognitive-Lab
原始信息汇总
数据集概述
数据集配置
配置名称:ben
- 特征:
- inputs: string
- targets: string
- language: string
- language_code: string
- annotation_type: string
- user_id: string
- 分割:
- train:
- 字节数: 1930709.4073847127
- 样本数: 1534
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 1274777
- 数据集大小: 1930709.4073847127
配置名称:guj
- 特征:
- inputs: string
- targets: string
- language: string
- language_code: string
- annotation_type: string
- user_id: string
- 分割:
- train:
- 字节数: 5020599.625852425
- 样本数: 3989
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 3265623
- 数据集大小: 5020599.625852425
配置名称:hin
- 特征:
- inputs: string
- targets: string
- language: string
- language_code: string
- annotation_type: string
- user_id: string
- 分割:
- train:
- 字节数: 1453695.8054298195
- 样本数: 1155
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 599486
- 数据集大小: 1453695.8054298195
配置名称:kan
- 特征:
- inputs: string
- targets: string
- language: string
- language_code: string
- annotation_type: string
- user_id: string
- 分割:
- train:
- 字节数: 420376.10304204305
- 样本数: 334
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 138844
- 数据集大小: 420376.10304204305
配置名称:kas
- 特征:
- inputs: string
- targets: string
- language: string
- language_code: string
- annotation_type: string
- user_id: string
- 分割:
- train:
- 字节数: 0.0
- 样本数: 0
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 3226
- 数据集大小: 0.0
配置名称:mal
- 特征:
- inputs: string
- targets: string
- language: string
- language_code: string
- annotation_type: string
- user_id: string
- 分割:
- train:
- 字节数: 2201310.791079441
- 样本数: 1749
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 955621
- 数据集大小: 2201310.791079441
配置名称:mar
- 特征:
- inputs: string
- targets: string
- language: string
- language_code: string
- annotation_type: string
- user_id: string
- 分割:
- train:
- 字节数: 4461776.303245637
- 样本数: 3545
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 1233445
- 数据集大小: 4461776.303245637
配置名称:mni
- 特征:
- inputs: string
- targets: string
- language: string
- language_code: string
- annotation_type: string
- user_id: string
- 分割:
- train:
- 字节数: 0.0
- 样本数: 0
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 3226
- 数据集大小: 0.0
配置名称:mya
- 特征:
- inputs: string
- targets: string
- language: string
- language_code: string
- annotation_type: string
- user_id: string
- 分割:
- train:
- 字节数: 594064.4330414501
- 样本数: 472
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 402635
- 数据集大小: 594064.4330414501
配置名称:npi
- 特征:
- inputs: string
- targets: string
- language: string
- language_code: string
- annotation_type: string
- user_id: string
- 分割:
- train:
- 字节数: 5036961.569982803
- 样本数: 4002
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 1600908
- 数据集大小: 5036961.569982803
配置名称:pan
- 特征:
- inputs: string
- targets: string
- language: string
- language_code: string
- annotation_type: string
- user_id: string
- 分割:
- train:
- 字节数: 8036231.790189954
- 样本数: 6385
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 8480049
- 数据集大小: 8036231.790189954
配置名称:sin
- 特征:
- inputs: string
- targets: string
- language: string
- language_code: string
- annotation_type: string
- user_id: string
- 分割:
- train:
- 字节数: 18280067.426894113
- 样本数: 14524
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 7183180
- 数据集大小: 18280067.426894113
配置名称:snd
- 特征:
- inputs: string
- targets: string
- language: string
- language_code: string
- annotation_type: string
- user_id: string
- 分割:
- train:
- 字节数: 344859.4378249096
- 样本数: 274
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 248540
- 数据集大小: 344859.4378249096
配置名称:tam
- 特征:
- inputs: string
- targets: string
- language: string
- language_code: string
- annotation_type: string
- user_id: string
- 分割:
- train:
- 字节数: 17787950.49189579
- 样本数: 14133
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 13356957
- 数据集大小: 17787950.49189579
配置名称:tel
- 特征:
- inputs: string
- targets: string
- language: string
- language_code: string
- annotation_type: string
- user_id: string
- 分割:
- train:
- 字节数: 10621418.962789824
- 样本数: 8439
- test:
- 字节数: 254601.14285714287
- 样本数: 250
- train:
- 下载大小: 7244064
- 数据集大小: 10876020.105646968
配置名称:urd
- 特征:
- inputs: string
- targets: string
- language: string
- language_code: string
- annotation_type: string
- user_id: string
- 分割:
- train:
- 字节数: 823131.6508667549
- 样本数: 654
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 1120035
- 数据集大小: 823131.6508667549



