five

saillab/taco-datasets

收藏
Hugging Face2023-12-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/saillab/taco-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于TaCo论文的四个数据集:Multilingual Alpaca-52K GPT-4数据集、Multilingual Dolly-15K GPT-4数据集、TaCo数据集和Multilingual Vicuna Benchmark数据集。这些数据集通过Google Cloud Translation进行了翻译。TaCo数据集是通过结合Alpaca-52K和Dolly-15K数据集创建的。数据集支持多种语言,包括英语、尼泊尔语、梵语、迈蒂利语、波斯语、印地语等。数据集适用于学术和研究用途,并遵循CC BY-NC许可。

该数据集包含用于TaCo论文的四个数据集:Multilingual Alpaca-52K GPT-4数据集、Multilingual Dolly-15K GPT-4数据集、TaCo数据集和Multilingual Vicuna Benchmark数据集。这些数据集通过Google Cloud Translation进行了翻译。TaCo数据集是通过结合Alpaca-52K和Dolly-15K数据集创建的。数据集支持多种语言,包括英语、尼泊尔语、梵语、迈蒂利语、波斯语、印地语等。数据集适用于学术和研究用途,并遵循CC BY-NC许可。
提供机构:
saillab
原始信息汇总

数据集概述

语言支持

  • 数据集支持多种语言,包括但不限于:
    • 英语 (en)
    • 尼泊尔语 (ne)
    • 绍纳语 (sn)
    • 迈蒂利语 (mai)
    • 波斯语 (fa)
    • 印地语 (hi)
    • 阿非利卡语 (af)
    • 阿尔巴尼亚语 (sq)
    • 阿姆哈拉语 (am)
    • 阿拉伯语 (ar)
    • 亚美尼亚语 (hy)
    • 阿萨姆语 (as)
    • 艾马拉语 (ay)
    • 阿塞拜疆语 (az)
    • 班巴拉语 (bm)
    • 巴斯克语 (eu)
    • 白俄罗斯语 (be)
    • 孟加拉语 (bn)
    • 比哈尔语 (bh)
    • 波斯尼亚语 (bs)
    • 保加利亚语 (bg)
    • 加泰罗尼亚语 (ca)
    • 宿务语 (ceb)
    • 奇切瓦语 (ny)
    • 中文 (zh)
    • 科西嘉语 (co)
    • 克罗地亚语 (hr)
    • 捷克语 (cs)
    • 丹麦语 (da)
    • 迪维希语 (dv)
    • 多格拉语 (dog)
    • 荷兰语 (nl)
    • 世界语 (eo)
    • 爱沙尼亚语 (et)
    • 埃维语 (ee)
    • 塔加洛语 (tl)
    • 芬兰语 (fi)
    • 法语 (fr)
    • 弗里斯兰语 (fy)
    • 加利西亚语 (gl)
    • 格鲁吉亚语 (ka)
    • 德语 (de)
    • 希腊语 (el)
    • 瓜拉尼语 (gn)
    • 古吉拉特语 (gu)
    • 海地克里奥尔语 (ht)
    • 豪萨语 (ha)
    • 夏威夷语 (haw)
    • 希伯来语 (he)
    • 赫蒙语 (hmn)
    • 匈牙利语 (hu)
    • 冰岛语 (is)
    • 伊博语 (ig)
    • 伊洛卡诺语 (ilo)
    • 印度尼西亚语 (id)
    • 爱尔兰语 (ga)
    • 意大利语 (it)
    • 日语 (ja)
    • 爪哇语 (jv)
    • 卡纳达语 (kn)
    • 哈萨克语 (kk)
    • 高棉语 (km)
    • 卢旺达语 (rw)
    • 孔卡尼语 (kok)
    • 韩语 (ko)
    • 克里奥尔语 (kri)
    • 库尔德语 (ku)
    • 吉尔吉斯语 (ky)
    • 老挝语 (lo)
    • 拉丁语 (la)
    • 拉脱维亚语 (lv)
    • 林加拉语 (ln)
    • 立陶宛语 (lt)
    • 卢干达语 (lg)
    • 卢森堡语 (lb)
    • 马其顿语 (mk)
    • 马拉雅拉姆语 (ml)
    • 马耳他语 (mt)
    • 毛利语 (mi)
    • 马拉地语 (mr)
    • 梅泰语 (mni)
    • 马来语 (ms)
    • 马尔加什语 (mg)
    • 缅甸语 (my)
    • 挪威语 (no)
    • 奥里亚语 (or)
    • 奥罗莫语 (om)
    • 普什图语 (ps)
    • 波兰语 (pl)
    • 葡萄牙语 (pt)
    • 旁遮普语 (pa)
    • 罗马尼亚语 (ro)
    • 俄语 (ru)
    • 萨摩亚语 (sm)
    • 苏格兰盖尔语 (gd)
    • 塞尔维亚语 (sr)
    • 塞索托语 (st)
    • 塞茨瓦纳语 (tn)
    • 信德语 (sd)
    • 僧伽罗语 (si)
    • 斯洛伐克语 (sk)
    • 斯洛文尼亚语 (sl)
    • 索马里语 (so)
    • 西班牙语 (es)
    • 巽他语 (su)
    • 斯瓦希里语 (sw)
    • 瑞典语 (sv)
    • 塔吉克语 (tg)
    • 泰米尔语 (ta)
    • 鞑靼语 (tt)
    • 泰卢固语 (te)
    • 泰语 (th)
    • 提格利尼亚语 (ti)
    • 汤加语 (to)
    • 土耳其语 (tr)
    • 土库曼语 (tk)
    • 特威语 (tw)
    • 乌克兰语 (uk)
    • 乌尔都语 (ur)
    • 维吾尔语 (ug)
    • 乌兹别克语 (uz)
    • 越南语 (vi)
    • 威尔士语 (cy)
    • 科萨语 (xh)
    • 意第绪语 (yi)
    • 约鲁巴语 (yo)
    • 祖鲁语 (zu)

数据集组成

  • 数据集包含以下四个子数据集:
    • Multilingual Alpaca-52K GPT-4 dataset
    • Multilingual Dolly-15K GPT-4 dataset
    • TaCo dataset
    • Multilingual Vicuna Benchmark dataset

数据集创建

  • 前三个数据集通过Google Cloud Translation进行翻译。
  • TaCo数据集是通过结合Alpaca-52K和Dolly-15K数据集,采用TaCo方法创建的。

数据集大小

  • 数据集大小范围为100K到1M条记录。

模型权重

  • 已发布多个语言模型的适配器,包括:
    • Taco Nepali-33B
    • Taco Sanskrit-33B
    • Taco Maithili-33B
    • Taco Persian-33B

版权和使用

  • 数据集遵循CC BY-NC许可,仅限学术和研究用途。
  • 使用前请查看Alpaca-52K、Dolly-15K和Google Cloud Translation的许可和条款。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作