M4-ai/Rhino
收藏Hugging Face2024-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/M4-ai/Rhino
下载链接
链接失效反馈官方服务:
资源简介:
Rhino数据集是一个全面的指令跟随数据集,旨在训练一个名为RhinoBeetle的高性能语言模型。该数据集结合了质量和数量,以促进强大的机器学习应用。构建过程中,多个不同的数据集被连接起来形成初始原始数据,随后进行基本清理以排除包含人类反馈强化学习(RLHF)拒绝的示例。通过使用回归模型对每个示例进行质量评估,并根据评分决定保留或丢弃哪些示例。
Rhino数据集是一个全面的指令跟随数据集,旨在训练一个名为RhinoBeetle的高性能语言模型。该数据集结合了质量和数量,以促进强大的机器学习应用。构建过程中,多个不同的数据集被连接起来形成初始原始数据,随后进行基本清理以排除包含人类反馈强化学习(RLHF)拒绝的示例。通过使用回归模型对每个示例进行质量评估,并根据评分决定保留或丢弃哪些示例。
提供机构:
M4-ai
原始信息汇总
Rhino Dataset
概述
Rhino数据集是一个全面的指令遵循数据集,旨在训练名为RhinoBeetle的高性能语言模型。该数据集旨在结合质量和数量,以促进强大的机器学习应用。
构建蓝图
Rhino数据集的构建过程包括以下步骤:
- 将多个多样化的数据集连接起来,形成初始的原始数据。这些源数据集包括:
- LDJnr/Verified-Camel
- glaiveai/glaive-code-assistant-v2
- LDJnr/Pure-Dove
- meta-math/MetaMathQA
- VMware/open-instruct
- TIGER-Lab/MathInstruct
- LDJnr/Capybara
- OpenOrca GPT-4
- 对初始连接后的数据集进行基本清洗,排除包含强化学习从人类反馈(RLHF)拒绝的示例。
质量评分和选择
使用回归模型(如Tiny Llama用于序列分类)对Rhino数据集中的每个示例进行质量评估。该模型基于经过精心筛选的Nectar数据集进行训练。
Nectar数据集中的示例评分计算方法如下:
- 给定一个答案列表 ( A ) 和一个随机选择的答案 ( a in A ),所选答案 ( a ) 的分数 ( S ) 计算如下: [ S = 1 - frac{ ext{index}(a)}{|A|} ] 其中 ( ext{index}(a) ) 是随机选择的答案 ( a ) 在列表 ( A ) 中的位置, ( |A| ) 是列表中答案的总数。
序列分类模型将使用此评分函数评估Rhino数据集,并根据评估的质量决定保留或丢弃哪些示例。
许可考虑
需要注意的是,Rhino数据集所包含的数据集可能受到严格的许可协议约束。在使用Rhino数据集之前,必须仔细审查并遵守各个组成数据集的许可条款。
使用建议
在微调语言模型时,建议跳过质量评分低于0.05-0.1的示例。



