five

saillab/testalpaca_sanskrit_taco

收藏
Hugging Face2024-06-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/saillab/testalpaca_sanskrit_taco
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于TaCo论文的四个数据集:Multilingual Alpaca-52K GPT-4数据集、Multilingual Dolly-15K GPT-4数据集、TaCo数据集和Multilingual Vicuna Benchmark数据集。这些数据集通过Google Cloud Translation进行了翻译。TaCo数据集是通过结合Alpaca-52K和Dolly-15K数据集创建的。数据集主要用于学术和研究目的,并遵循CC BY-NC许可。

该数据集包含用于TaCo论文的四个数据集:Multilingual Alpaca-52K GPT-4数据集、Multilingual Dolly-15K GPT-4数据集、TaCo数据集和Multilingual Vicuna Benchmark数据集。这些数据集通过Google Cloud Translation进行了翻译。TaCo数据集是通过结合Alpaca-52K和Dolly-15K数据集创建的。数据集主要用于学术和研究目的,并遵循CC BY-NC许可。
提供机构:
saillab
原始信息汇总

数据集概述

数据集语言支持

  • 支持多种语言,包括但不限于英语、尼泊尔语、希纳语、印地语等。

数据集大小

  • 数据集大小分类为:100K<n<1M。

数据集内容

  • 包含四个主要数据集:
    • Multilingual Alpaca-52K GPT-4 dataset
    • Multilingual Dolly-15K GPT-4 dataset
    • TaCo dataset
    • Multilingual Vicuna Benchmark dataset

数据集创建与翻译

  • 前三个数据集通过Google Cloud Translation进行了翻译。
  • TaCo数据集是通过TaCo方法创建,结合了Alpaca-52K和Dolly-15K数据集。

数据集使用

  • 用户可根据论文中描述的方法,使用已翻译的数据集创建特定语言的TaCo数据集。

版权与使用限制

  • 数据集遵循CC BY-NC许可,仅限于学术和研究用途。使用前需审查Alpaca-52K、Dolly-15K及Google Cloud Translation的许可和条款。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作