GuanacoDataset
收藏魔搭社区2026-01-05 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/wyj123456/GuanacoDataset
下载链接
链接失效反馈资源简介:
## 数据集描述
It contains 534610 en instructions generated by text-davinci-003 upon 175 tasks from the Alpaca model by providing rewrites of seed tasks in different languages and adding new tasks specifically designed for English grammar analysis, natural language understanding, cross-lingual self-awareness, and explicit content recognition.
### 数据集加载方式
```Python
from modelscope.msdatasets import MsDataset
from modelscope.utils.constant import DownloadMode
# Load the dataset
ds_train = MsDataset.load('wyj123456/GuanacoDataset', subset_name='subset',split='train', download_mode=DownloadMode.FORCE_REDOWNLOAD)
#subset_name='default' or 'subset'
print(next(iter(ds_train)))
```
### Clone with HTTP
```bash
git clone https://www.modelscope.cn/datasets/wyj123456/GuanacoDataset.git
```
该数据集包含534610条英文指令,由text-davinci-003基于Alpaca模型的175个任务生成,具体实现方式为对多语言种子任务进行重写,并新增专门面向英语语法分析、自然语言理解、跨语言自我感知以及显性内容识别设计的任务。
### 数据集加载方式
Python
from modelscope.msdatasets import MsDataset
from modelscope.utils.constant import DownloadMode
# 加载数据集
ds_train = MsDataset.load('wyj123456/GuanacoDataset', subset_name='subset',split='train', download_mode=DownloadMode.FORCE_REDOWNLOAD)
# subset_name='default' 或 'subset'
print(next(iter(ds_train)))
### HTTP 克隆方式
bash
git clone https://www.modelscope.cn/datasets/wyj123456/GuanacoDataset.git
提供机构:
maas
创建时间:
2023-07-29
搜集汇总
数据集介绍

背景与挑战
背景概述
GuanacoDataset是一个大规模英文指令数据集,包含534,610条指令,基于Alpaca模型的175个任务生成,使用text-davinci-003模型。该数据集通过多语言重写种子任务和新增专门任务,专注于英语语法分析、自然语言理解、跨语言自我意识和显式内容识别,适用于智能对话、问答和文本生成等应用。
以上内容由遇见数据集搜集并总结生成



