five

bkai-foundation-models/vi-self-chat-sharegpt-format

收藏
Hugging Face2024-03-05 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/bkai-foundation-models/vi-self-chat-sharegpt-format
下载链接
链接失效反馈
官方服务:
资源简介:
越南语自对话数据集旨在增强模型与人类进行多轮对话的能力。通过结合Self-Instruct和Baize方法,生成多样化的指令和合成多轮交互对话,该数据集致力于创建一个强大的资源,以提升模型在复杂对话场景中的语言理解和响应生成能力。
提供机构:
bkai-foundation-models
原始信息汇总

数据集概述

数据集名称

越南语自对话数据集(Vietnamese Self-Chat Dataset)

数据集目的

该数据集旨在提升模型与人类进行多轮对话的能力。

数据集构建方法

  1. 指令生成:采用Self-Instruct论文的方法生成多样化的指令,以指导预训练语言模型遵循特定指令。
  2. 合成自对话:基于第一步生成的指令,借鉴Baize论文,模拟多轮交互,供模型学习。

数据集特征

  • id:整数类型(int64)
  • conversations:列表类型,包含:
    • from:字符串类型(string)
    • value:字符串类型(string)

数据集分割

  • 训练集
    • 数据大小:77553076字节
    • 示例数量:30399

数据集大小

  • 下载大小:32137459字节
  • 数据集大小:77553076字节

引用信息

若使用此数据集,请引用以下文献:

@article{duc2024towards, title={Towards Comprehensive Vietnamese Retrieval-Augmented Generation and Large Language Models}, author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang}, journal={arXiv preprint arXiv:2403.01616}, year={2024} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作