M4-ai/Rhino

Name: M4-ai/Rhino
Creator: M4-ai
Published: 2024-01-14 18:23:56
License: 暂无描述

Hugging Face2024-01-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/M4-ai/Rhino

下载链接

链接失效反馈

官方服务：

资源简介：

Rhino数据集是一个全面的指令跟随数据集，旨在训练一个名为RhinoBeetle的高性能语言模型。该数据集结合了质量和数量，以促进强大的机器学习应用。构建过程中，多个不同的数据集被连接起来形成初始原始数据，随后进行基本清理以排除包含人类反馈强化学习（RLHF）拒绝的示例。通过使用回归模型对每个示例进行质量评估，并根据评分决定保留或丢弃哪些示例。

提供机构：

M4-ai

原始信息汇总

Rhino Dataset

概述

Rhino数据集是一个全面的指令遵循数据集，旨在训练名为RhinoBeetle的高性能语言模型。该数据集旨在结合质量和数量，以促进强大的机器学习应用。

构建蓝图

Rhino数据集的构建过程包括以下步骤：

将多个多样化的数据集连接起来，形成初始的原始数据。这些源数据集包括：
- LDJnr/Verified-Camel
- glaiveai/glaive-code-assistant-v2
- LDJnr/Pure-Dove
- meta-math/MetaMathQA
- VMware/open-instruct
- TIGER-Lab/MathInstruct
- LDJnr/Capybara
- OpenOrca GPT-4
对初始连接后的数据集进行基本清洗，排除包含强化学习从人类反馈（RLHF）拒绝的示例。

质量评分和选择

使用回归模型（如Tiny Llama用于序列分类）对Rhino数据集中的每个示例进行质量评估。该模型基于经过精心筛选的Nectar数据集进行训练。

Nectar数据集中的示例评分计算方法如下：

给定一个答案列表 ( A ) 和一个随机选择的答案 ( a in A )，所选答案 ( a ) 的分数 ( S ) 计算如下： [ S = 1 - frac{ ext{index}(a)}{|A|} ] 其中 ( ext{index}(a) ) 是随机选择的答案 ( a ) 在列表 ( A ) 中的位置， ( |A| ) 是列表中答案的总数。

序列分类模型将使用此评分函数评估Rhino数据集，并根据评估的质量决定保留或丢弃哪些示例。

许可考虑

需要注意的是，Rhino数据集所包含的数据集可能受到严格的许可协议约束。在使用Rhino数据集之前，必须仔细审查并遵守各个组成数据集的许可条款。

使用建议

在微调语言模型时，建议跳过质量评分低于0.05-0.1的示例。

5,000+

优质数据集

54 个

任务类型

进入经典数据集