bkai-foundation-models/vi-alpaca-input-output-format
收藏Hugging Face2024-03-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/bkai-foundation-models/vi-alpaca-input-output-format
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于Stanford Alpaca、Self-Instruct论文和Chinese LLaMA的思想,专门为越南语设计的。构建过程分为两步:第一步是手动创建越南语种子任务,第二步是指令生成,使用GPT-4、GPT-3.5和GPT-3.5-instruct生成数据。
该数据集是基于Stanford Alpaca、Self-Instruct论文和Chinese LLaMA的思想,专门为越南语设计的。构建过程分为两步:第一步是手动创建越南语种子任务,第二步是指令生成,使用GPT-4、GPT-3.5和GPT-3.5-instruct生成数据。
提供机构:
bkai-foundation-models
原始信息汇总
🇻🇳 Vietnamese modified Alpaca Dataset
数据集概述
该数据集是基于Stanford Alpaca、Self-Instruct paper和Chinese LLaMA的理念,专门为越南语设计的。旨在为越南语社区贡献高质量的数据集,用于训练语言模型。
数据集构建过程
数据集的构建分为两个步骤:
-
手动创建越南语种子任务:
- 采用Self-Instruct paper中概述的方法,精心筛选了一系列多样化的种子任务,使用GPT-4和手工制作。
-
指令生成:
- 借鉴Stanford Alpaca和Chinese LLaMA的方法,通过调整提示并使用GPT-4、GPT-3.5和GPT-3.5-instruct生成输入/输出形式的数据,以创建更多样化、更长的数据集。
数据集信息
-
特征:
input:字符串类型output:字符串类型
-
分割:
train:- 字节数:39443623
- 样本数:25000
-
下载大小:19348812
-
数据集大小:39443623
引用
@article{duc2024towards, title={Towards Comprehensive Vietnamese Retrieval-Augmented Generation and Large Language Models}, author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang}, journal={arXiv preprint arXiv:2403.01616}, year={2024} }



