PhilipMay/Nectar-ShareGPT-clean
收藏Hugging Face2024-04-06 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/PhilipMay/Nectar-ShareGPT-clean
下载链接
链接失效反馈官方服务:
资源简介:
Nectar ShareGPT Clean数据集是基于berkeley-nest/Nectar数据集,通过特定脚本清理和转换而成的。该数据集的主要目的是适应Axolotl支持的对话格式。在清理过程中,仅保留了最佳排名的答案,清理了不可见字符和空白,删除了空文本的行以及来自多个来源的行。数据集的语言为英语,规模在10万到100万之间,遵循Apache 2.0许可证。
Nectar ShareGPT Clean数据集是基于berkeley-nest/Nectar数据集,通过特定脚本清理和转换而成的。该数据集的主要目的是适应Axolotl支持的对话格式。在清理过程中,仅保留了最佳排名的答案,清理了不可见字符和空白,删除了空文本的行以及来自多个来源的行。数据集的语言为英语,规模在10万到100万之间,遵循Apache 2.0许可证。
提供机构:
PhilipMay
原始信息汇总
数据集概述
数据集名称
- Nectar ShareGPT Clean
数据集来源
- 基于 berkeley-nest/Nectar 数据集,通过
04_convert_nectar.ipynb脚本进行清洗和转换。
主要变更
- 转换为 Axolotl 支持的对话格式。
- 仅使用最佳排名答案。
- 清理不可见字符并去除空格。
- 移除文本为空的行。
- 移除来自多个源的行(基于
source列)。
数据集语言
- 英语(en)
数据集大小
- 100K<n<1M
许可证
- Apache License, Version 2.0
版权信息
- 版权所有者:Philip May 及 Banghua Zhu, Evan Frick, Tianhao Wu, Hanlin Zhu, Jiantao Jiao



