bkai-foundation-models/vi-self-chat-sharegpt-format
收藏Hugging Face2024-03-05 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/bkai-foundation-models/vi-self-chat-sharegpt-format
下载链接
链接失效反馈官方服务:
资源简介:
越南语自对话数据集旨在增强模型与人类进行多轮对话的能力。通过结合Self-Instruct和Baize方法,生成多样化的指令和合成多轮交互对话,该数据集致力于创建一个强大的资源,以提升模型在复杂对话场景中的语言理解和响应生成能力。
提供机构:
bkai-foundation-models
原始信息汇总
数据集概述
数据集名称
越南语自对话数据集(Vietnamese Self-Chat Dataset)
数据集目的
该数据集旨在提升模型与人类进行多轮对话的能力。
数据集构建方法
- 指令生成:采用Self-Instruct论文的方法生成多样化的指令,以指导预训练语言模型遵循特定指令。
- 合成自对话:基于第一步生成的指令,借鉴Baize论文,模拟多轮交互,供模型学习。
数据集特征
- id:整数类型(int64)
- conversations:列表类型,包含:
- from:字符串类型(string)
- value:字符串类型(string)
数据集分割
- 训练集:
- 数据大小:77553076字节
- 示例数量:30399
数据集大小
- 下载大小:32137459字节
- 数据集大小:77553076字节
引用信息
若使用此数据集,请引用以下文献:
@article{duc2024towards, title={Towards Comprehensive Vietnamese Retrieval-Augmented Generation and Large Language Models}, author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang}, journal={arXiv preprint arXiv:2403.01616}, year={2024} }



