ai4bharat/wiki-translate
收藏Hugging Face2024-06-24 更新2024-06-25 收录
下载链接:
https://hf-mirror.com/datasets/ai4bharat/wiki-translate
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为wiki-translate,主要用于文本生成任务,支持多种语言,包括阿萨姆语、孟加拉语、古吉拉特语、英语、印地语等。数据集的特征包括文档ID、标题、URL以及多种语言的文本内容。数据集的规模在100B到1T之间。
该数据集名为wiki-translate,主要用于文本生成任务,支持多种语言,包括阿萨姆语、孟加拉语、古吉拉特语、英语、印地语等。数据集的特征包括文档ID、标题、URL以及多种语言的文本内容。数据集的规模在100B到1T之间。
提供机构:
ai4bharat
原始信息汇总
数据集概述
许可证
- CC BY 4.0
任务类别
- 文本生成
语言
- 阿萨姆语 (as)
- 孟加拉语 (bn)
- 古吉拉特语 (gu)
- 英语 (en)
- 印地语 (hi)
- 卡纳达语 (kn)
- 克什米尔语 (ks)
- 马拉雅拉姆语 (ml)
- 马拉地语 (mr)
- 尼泊尔语 (ne)
- 奥里亚语 (or)
- 旁遮普语 (pa)
- 梵语 (sa)
- 信德语 (sd)
- 泰米尔语 (ta)
- 泰卢固语 (te)
- 乌尔都语 (ur)
标签
- 语言建模
- 非正式语言模型
- 大型语言模型
数据集名称
- wiki-translate
数据集配置
- 配置名称: train
- 特征:
- doc_id: 字符串
- title: 字符串
- url: 字符串
- eng_Latn: 字符串
- asm_Beng: 字符串
- ben_Beng: 字符串
- guj_Gujr: 字符串
- hin_Deva: 字符串
- kan_Knda: 字符串
- mar_Deva: 字符串
- npi_Deva: 字符串
- ory_Orya: 字符串
- pan_Guru: 字符串
- san_Deva: 字符串
- tam_Taml: 字符串
- tel_Telu: 字符串
- urd_Arab: 字符串
数据文件路径
- train/*.parquet
数据集大小
- 100B < n < 1T



