saillab/testalpaca_sanskrit_taco
收藏Hugging Face2024-06-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/saillab/testalpaca_sanskrit_taco
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于TaCo论文的四个数据集:Multilingual Alpaca-52K GPT-4数据集、Multilingual Dolly-15K GPT-4数据集、TaCo数据集和Multilingual Vicuna Benchmark数据集。这些数据集通过Google Cloud Translation进行了翻译。TaCo数据集是通过结合Alpaca-52K和Dolly-15K数据集创建的。数据集主要用于学术和研究目的,并遵循CC BY-NC许可。
该数据集包含用于TaCo论文的四个数据集:Multilingual Alpaca-52K GPT-4数据集、Multilingual Dolly-15K GPT-4数据集、TaCo数据集和Multilingual Vicuna Benchmark数据集。这些数据集通过Google Cloud Translation进行了翻译。TaCo数据集是通过结合Alpaca-52K和Dolly-15K数据集创建的。数据集主要用于学术和研究目的,并遵循CC BY-NC许可。
提供机构:
saillab
原始信息汇总
数据集概述
数据集语言支持
- 支持多种语言,包括但不限于英语、尼泊尔语、希纳语、印地语等。
数据集大小
- 数据集大小分类为:100K<n<1M。
数据集内容
- 包含四个主要数据集:
- Multilingual Alpaca-52K GPT-4 dataset
- Multilingual Dolly-15K GPT-4 dataset
- TaCo dataset
- Multilingual Vicuna Benchmark dataset
数据集创建与翻译
- 前三个数据集通过Google Cloud Translation进行了翻译。
- TaCo数据集是通过TaCo方法创建,结合了Alpaca-52K和Dolly-15K数据集。
数据集使用
- 用户可根据论文中描述的方法,使用已翻译的数据集创建特定语言的TaCo数据集。
版权与使用限制
- 数据集遵循CC BY-NC许可,仅限于学术和研究用途。使用前需审查Alpaca-52K、Dolly-15K及Google Cloud Translation的许可和条款。



