DrNicefellow/Quality_WorryFree_GeneralQA_Chat_Dataset-v1
收藏Hugging Face2024-02-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DrNicefellow/Quality_WorryFree_GeneralQA_Chat_Dataset-v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含高质量的通用聊天样本问题和答案,遵循MetaAI的LIMA原则,强调训练数据的质量而非数量。尽管数据集规模不大,但其质量确保了在训练和微调对话AI模型时的有效性。此版本中,每个聊天包含一个用户查询和一个助手回答。数据集采用Vicuna 1.1格式,包含单轮聊天,适用于各种对话AI训练范式。数据集在Apache License 2.0下发布,允许广泛的使用和修改。
该数据集包含高质量的通用聊天样本问题和答案,遵循MetaAI的LIMA原则,强调训练数据的质量而非数量。尽管数据集规模不大,但其质量确保了在训练和微调对话AI模型时的有效性。此版本中,每个聊天包含一个用户查询和一个助手回答。数据集采用Vicuna 1.1格式,包含单轮聊天,适用于各种对话AI训练范式。数据集在Apache License 2.0下发布,允许广泛的使用和修改。
提供机构:
DrNicefellow
原始信息汇总
Dr. Nicefollowss Worry Free General Chat Dataset v1
概述
该数据集包含高质量的通用聊天样本问题和答案。它遵循MetaAI的LIMA原则:强调质量而非数量在训练数据中的重要性。尽管规模不大,但数据集的质量确保了其在训练和微调对话AI模型中的有效性。在此版本中,每个聊天包含一个用户查询和一个助手回答。在下一个版本中,将变为多轮对话。
数据集格式
数据集采用Vicuna 1.1格式,具有单轮聊天功能。这种格式因其与各种对话AI训练范式的兼容性和在表示对话中的效率而被选中。
数据量
数据集包含数千个聊天样本。每个样本都经过精心策划,以确保最高质量,符合LIMA原则。
许可
该数据集在知识产权问题上无忧,因为它不是由专有聊天机器人自动生成的。此数据集在Apache License 2.0下发布。该许可证允许在给予适当信用和记录更改的前提下,广泛自由地使用和修改。有关完整的许可条款,请参阅LICENSE文件。
使用案例
该数据集适用于训练对话AI模型。它可以帮助开发能够高精度处理广泛查询的聊天机器人或虚拟助手。要使用该数据集通过Axolotl微调模型,只需在.yml文件中添加以下内容: yaml datasets:
- path: DrNicefellow/Quality_WorryFree_GeneralQA_Chat_Dataset-v1
- type: completion



