five

GuanacoDataset

收藏
魔搭社区2026-01-05 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/wyj123456/GuanacoDataset
下载链接
链接失效反馈
资源简介:
## 数据集描述 It contains 534610 en instructions generated by text-davinci-003 upon 175 tasks from the Alpaca model by providing rewrites of seed tasks in different languages and adding new tasks specifically designed for English grammar analysis, natural language understanding, cross-lingual self-awareness, and explicit content recognition. ### 数据集加载方式 ```Python from modelscope.msdatasets import MsDataset from modelscope.utils.constant import DownloadMode # Load the dataset ds_train = MsDataset.load('wyj123456/GuanacoDataset', subset_name='subset',split='train', download_mode=DownloadMode.FORCE_REDOWNLOAD) #subset_name='default' or 'subset' print(next(iter(ds_train))) ``` ### Clone with HTTP ```bash git clone https://www.modelscope.cn/datasets/wyj123456/GuanacoDataset.git ```

该数据集包含534610条英文指令,由text-davinci-003基于Alpaca模型的175个任务生成,具体实现方式为对多语言种子任务进行重写,并新增专门面向英语语法分析、自然语言理解、跨语言自我感知以及显性内容识别设计的任务。 ### 数据集加载方式 Python from modelscope.msdatasets import MsDataset from modelscope.utils.constant import DownloadMode # 加载数据集 ds_train = MsDataset.load('wyj123456/GuanacoDataset', subset_name='subset',split='train', download_mode=DownloadMode.FORCE_REDOWNLOAD) # subset_name='default' 或 'subset' print(next(iter(ds_train))) ### HTTP 克隆方式 bash git clone https://www.modelscope.cn/datasets/wyj123456/GuanacoDataset.git
提供机构:
maas
创建时间:
2023-07-29
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
GuanacoDataset是一个大规模英文指令数据集,包含534,610条指令,基于Alpaca模型的175个任务生成,使用text-davinci-003模型。该数据集通过多语言重写种子任务和新增专门任务,专注于英语语法分析、自然语言理解、跨语言自我意识和显式内容识别,适用于智能对话、问答和文本生成等应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作