saillab/testalpaca_sanskrit_taco

Name: saillab/testalpaca_sanskrit_taco
Creator: saillab
Published: 2024-06-04 00:07:46
License: 暂无描述

Hugging Face2024-06-04 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/saillab/testalpaca_sanskrit_taco

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于TaCo论文的四个数据集：Multilingual Alpaca-52K GPT-4数据集、Multilingual Dolly-15K GPT-4数据集、TaCo数据集和Multilingual Vicuna Benchmark数据集。这些数据集通过Google Cloud Translation进行了翻译。TaCo数据集是通过结合Alpaca-52K和Dolly-15K数据集创建的。数据集主要用于学术和研究目的，并遵循CC BY-NC许可。

提供机构：

saillab

原始信息汇总

数据集概述

数据集语言支持

支持多种语言，包括但不限于英语、尼泊尔语、希纳语、印地语等。

数据集大小

数据集大小分类为：100K<n<1M。

数据集内容

包含四个主要数据集：
- Multilingual Alpaca-52K GPT-4 dataset
- Multilingual Dolly-15K GPT-4 dataset
- TaCo dataset
- Multilingual Vicuna Benchmark dataset

数据集创建与翻译

前三个数据集通过Google Cloud Translation进行了翻译。
TaCo数据集是通过TaCo方法创建，结合了Alpaca-52K和Dolly-15K数据集。

数据集使用

用户可根据论文中描述的方法，使用已翻译的数据集创建特定语言的TaCo数据集。

版权与使用限制

数据集遵循CC BY-NC许可，仅限于学术和研究用途。使用前需审查Alpaca-52K、Dolly-15K及Google Cloud Translation的许可和条款。

5,000+

优质数据集

54 个

任务类型

进入经典数据集