five

bkai-foundation-models/vi-alpaca-input-output-format

收藏
Hugging Face2024-03-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/bkai-foundation-models/vi-alpaca-input-output-format
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是基于Stanford Alpaca、Self-Instruct论文和Chinese LLaMA的思想,专门为越南语设计的。构建过程分为两步:第一步是手动创建越南语种子任务,第二步是指令生成,使用GPT-4、GPT-3.5和GPT-3.5-instruct生成数据。

该数据集是基于Stanford Alpaca、Self-Instruct论文和Chinese LLaMA的思想,专门为越南语设计的。构建过程分为两步:第一步是手动创建越南语种子任务,第二步是指令生成,使用GPT-4、GPT-3.5和GPT-3.5-instruct生成数据。
提供机构:
bkai-foundation-models
原始信息汇总

🇻🇳 Vietnamese modified Alpaca Dataset

数据集概述

该数据集是基于Stanford AlpacaSelf-Instruct paperChinese LLaMA的理念,专门为越南语设计的。旨在为越南语社区贡献高质量的数据集,用于训练语言模型。

数据集构建过程

数据集的构建分为两个步骤:

  1. 手动创建越南语种子任务

    • 采用Self-Instruct paper中概述的方法,精心筛选了一系列多样化的种子任务,使用GPT-4和手工制作。
  2. 指令生成

    • 借鉴Stanford AlpacaChinese LLaMA的方法,通过调整提示并使用GPT-4、GPT-3.5和GPT-3.5-instruct生成输入/输出形式的数据,以创建更多样化、更长的数据集。

数据集信息

  • 特征

    • input:字符串类型
    • output:字符串类型
  • 分割

    • train
      • 字节数:39443623
      • 样本数:25000
  • 下载大小:19348812

  • 数据集大小:39443623

引用

@article{duc2024towards, title={Towards Comprehensive Vietnamese Retrieval-Augmented Generation and Large Language Models}, author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang}, journal={arXiv preprint arXiv:2403.01616}, year={2024} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作