five

yufan/SFT_OpenO1_Scored

收藏
Hugging Face2024-12-17 更新2024-12-21 收录
下载链接:
https://hf-mirror.com/datasets/yufan/SFT_OpenO1_Scored
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由以下开源SFT数据集组成:[`OpenO1-SFT`](https://huggingface.co/datasets/O1-OPEN/OpenO1-SFT)。数据清理方法包括:1. 仅保留使用FastText语言检测的特定语言(EN/DE/ES/ZH/IT/JA/FR);2. 去除重复数据,确保每个提示只出现一次;3. 移除响应长度超过8K字符的数据;4. 使用奖励模型(Mistral-Nemo-Base-2407在偏好数据集上微调)对每个数据点进行评分。

This dataset consists of multiple open-sourced SFT datasets, featuring elements such as prompt, thought, response, and a nested messages feature. The dataset has undergone various cleaning methods, including language detection, deduplication, response length limitation, and scoring using a reward model. The dataset is divided into a training set containing 125494 samples. The source of the dataset is OpenO1-SFT.
提供机构:
yufan
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作