five

danlou/based-chat-v0.1-Mistral-Nemo-Base-2407

收藏
Hugging Face2024-12-13 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/danlou/based-chat-v0.1-Mistral-Nemo-Base-2407
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是作为探索理解监督数据集对于将基础大语言模型(LLMs)微调为对话模型的必要性的一部分而开发的。它是一个基于Mistral-Nemo-Base-2407模型生成的合成数据集,用于微调该模型,产生了relay-v0.1-Mistral-Nemo-2407。数据集的生成使用了facebook/empathetic_dialogues和AlekseyKorshuk/quora-question-pairs两个数据集作为对话启动器,并遵循了CC-BY-NC 4.0许可证。数据集的条目被格式化为类似IRC的提示,并随机采样,但有一些限制,如最小词频。

Based-Chat v0.1 (Mistral Nemo Base 2407) is a synthetic dataset developed to explore the necessity of supervised datasets for fine-tuning base LLMs into conversational models. It is created using the Mistral-Nemo-Base-2407 model and used to fine-tune that model, producing the relay-v0.1-Mistral-Nemo-2407 model. The dataset generation method includes using the facebook/empathetic_dialogues and AlekseyKorshuk/quora-question-pairs datasets as conversation starters and formatting them into IRC-style prompts. The entries in the dataset are randomly sampled, with some restrictions such as minimum word frequency. The dataset is licensed under CC-BY-NC 4.0.
提供机构:
danlou
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作