bkai-foundation-models/vi-alpaca-input-output-format

Name: bkai-foundation-models/vi-alpaca-input-output-format
Creator: bkai-foundation-models
Published: 2024-03-05 09:35:51
License: 暂无描述

Hugging Face2024-03-05 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/bkai-foundation-models/vi-alpaca-input-output-format

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于Stanford Alpaca、Self-Instruct论文和Chinese LLaMA的思想，专门为越南语设计的。构建过程分为两步：第一步是手动创建越南语种子任务，第二步是指令生成，使用GPT-4、GPT-3.5和GPT-3.5-instruct生成数据。

提供机构：

bkai-foundation-models

原始信息汇总

🇻🇳 Vietnamese modified Alpaca Dataset

数据集概述

该数据集是基于Stanford Alpaca、Self-Instruct paper和Chinese LLaMA的理念，专门为越南语设计的。旨在为越南语社区贡献高质量的数据集，用于训练语言模型。

数据集构建过程

数据集的构建分为两个步骤：

手动创建越南语种子任务：
- 采用Self-Instruct paper中概述的方法，精心筛选了一系列多样化的种子任务，使用GPT-4和手工制作。
指令生成：
- 借鉴Stanford Alpaca和Chinese LLaMA的方法，通过调整提示并使用GPT-4、GPT-3.5和GPT-3.5-instruct生成输入/输出形式的数据，以创建更多样化、更长的数据集。

数据集信息

特征：
- input：字符串类型
- output：字符串类型
分割：
- train：
  - 字节数：39443623
  - 样本数：25000
下载大小：19348812
数据集大小：39443623

引用

@article{duc2024towards, title={Towards Comprehensive Vietnamese Retrieval-Augmented Generation and Large Language Models}, author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang}, journal={arXiv preprint arXiv:2403.01616}, year={2024} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集