saillab/taco-datasets

Name: saillab/taco-datasets
Creator: saillab
Published: 2023-12-01 06:21:22
License: 暂无描述

Hugging Face2023-12-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/saillab/taco-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于TaCo论文的四个数据集：Multilingual Alpaca-52K GPT-4数据集、Multilingual Dolly-15K GPT-4数据集、TaCo数据集和Multilingual Vicuna Benchmark数据集。这些数据集通过Google Cloud Translation进行了翻译。TaCo数据集是通过结合Alpaca-52K和Dolly-15K数据集创建的。数据集支持多种语言，包括英语、尼泊尔语、梵语、迈蒂利语、波斯语、印地语等。数据集适用于学术和研究用途，并遵循CC BY-NC许可。

提供机构：

saillab

原始信息汇总

数据集概述

语言支持

数据集支持多种语言，包括但不限于：
- 英语 (en)
- 尼泊尔语 (ne)
- 绍纳语 (sn)
- 迈蒂利语 (mai)
- 波斯语 (fa)
- 印地语 (hi)
- 阿非利卡语 (af)
- 阿尔巴尼亚语 (sq)
- 阿姆哈拉语 (am)
- 阿拉伯语 (ar)
- 亚美尼亚语 (hy)
- 阿萨姆语 (as)
- 艾马拉语 (ay)
- 阿塞拜疆语 (az)
- 班巴拉语 (bm)
- 巴斯克语 (eu)
- 白俄罗斯语 (be)
- 孟加拉语 (bn)
- 比哈尔语 (bh)
- 波斯尼亚语 (bs)
- 保加利亚语 (bg)
- 加泰罗尼亚语 (ca)
- 宿务语 (ceb)
- 奇切瓦语 (ny)
- 中文 (zh)
- 科西嘉语 (co)
- 克罗地亚语 (hr)
- 捷克语 (cs)
- 丹麦语 (da)
- 迪维希语 (dv)
- 多格拉语 (dog)
- 荷兰语 (nl)
- 世界语 (eo)
- 爱沙尼亚语 (et)
- 埃维语 (ee)
- 塔加洛语 (tl)
- 芬兰语 (fi)
- 法语 (fr)
- 弗里斯兰语 (fy)
- 加利西亚语 (gl)
- 格鲁吉亚语 (ka)
- 德语 (de)
- 希腊语 (el)
- 瓜拉尼语 (gn)
- 古吉拉特语 (gu)
- 海地克里奥尔语 (ht)
- 豪萨语 (ha)
- 夏威夷语 (haw)
- 希伯来语 (he)
- 赫蒙语 (hmn)
- 匈牙利语 (hu)
- 冰岛语 (is)
- 伊博语 (ig)
- 伊洛卡诺语 (ilo)
- 印度尼西亚语 (id)
- 爱尔兰语 (ga)
- 意大利语 (it)
- 日语 (ja)
- 爪哇语 (jv)
- 卡纳达语 (kn)
- 哈萨克语 (kk)
- 高棉语 (km)
- 卢旺达语 (rw)
- 孔卡尼语 (kok)
- 韩语 (ko)
- 克里奥尔语 (kri)
- 库尔德语 (ku)
- 吉尔吉斯语 (ky)
- 老挝语 (lo)
- 拉丁语 (la)
- 拉脱维亚语 (lv)
- 林加拉语 (ln)
- 立陶宛语 (lt)
- 卢干达语 (lg)
- 卢森堡语 (lb)
- 马其顿语 (mk)
- 马拉雅拉姆语 (ml)
- 马耳他语 (mt)
- 毛利语 (mi)
- 马拉地语 (mr)
- 梅泰语 (mni)
- 马来语 (ms)
- 马尔加什语 (mg)
- 缅甸语 (my)
- 挪威语 (no)
- 奥里亚语 (or)
- 奥罗莫语 (om)
- 普什图语 (ps)
- 波兰语 (pl)
- 葡萄牙语 (pt)
- 旁遮普语 (pa)
- 罗马尼亚语 (ro)
- 俄语 (ru)
- 萨摩亚语 (sm)
- 苏格兰盖尔语 (gd)
- 塞尔维亚语 (sr)
- 塞索托语 (st)
- 塞茨瓦纳语 (tn)
- 信德语 (sd)
- 僧伽罗语 (si)
- 斯洛伐克语 (sk)
- 斯洛文尼亚语 (sl)
- 索马里语 (so)
- 西班牙语 (es)
- 巽他语 (su)
- 斯瓦希里语 (sw)
- 瑞典语 (sv)
- 塔吉克语 (tg)
- 泰米尔语 (ta)
- 鞑靼语 (tt)
- 泰卢固语 (te)
- 泰语 (th)
- 提格利尼亚语 (ti)
- 汤加语 (to)
- 土耳其语 (tr)
- 土库曼语 (tk)
- 特威语 (tw)
- 乌克兰语 (uk)
- 乌尔都语 (ur)
- 维吾尔语 (ug)
- 乌兹别克语 (uz)
- 越南语 (vi)
- 威尔士语 (cy)
- 科萨语 (xh)
- 意第绪语 (yi)
- 约鲁巴语 (yo)
- 祖鲁语 (zu)

数据集组成

数据集包含以下四个子数据集：
- Multilingual Alpaca-52K GPT-4 dataset
- Multilingual Dolly-15K GPT-4 dataset
- TaCo dataset
- Multilingual Vicuna Benchmark dataset

数据集创建

前三个数据集通过Google Cloud Translation进行翻译。
TaCo数据集是通过结合Alpaca-52K和Dolly-15K数据集，采用TaCo方法创建的。

数据集大小

数据集大小范围为100K到1M条记录。

模型权重

已发布多个语言模型的适配器，包括：
- Taco Nepali-33B
- Taco Sanskrit-33B
- Taco Maithili-33B
- Taco Persian-33B

版权和使用

数据集遵循CC BY-NC许可，仅限学术和研究用途。
使用前请查看Alpaca-52K、Dolly-15K和Google Cloud Translation的许可和条款。

5,000+

优质数据集

54 个

任务类型

进入经典数据集