yufan/SFT_Smol_Filtered
收藏Hugging Face2024-12-17 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/yufan/SFT_Smol_Filtered
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如提示、消息列表(包含内容和角色)、来源和奖励分数。数据集分为一个训练集,包含687,594个样本,总大小为3,441,845,116字节。数据集来源于多个开源SFT数据集,如smoltalk。数据清洗方法包括:仅保留特定语言(EN/DE/ES/ZH/IT/JA/FR)、去重、移除响应长度超过8K字符的数据、使用奖励模型对每个数据点进行评分。
The dataset includes four main features: prompt, messages (containing content and role), source, and reward_score. The dataset is split into a training set with 687594 samples, totaling 3441845116 bytes.
提供机构:
yufan



