lightblue/mitsu_top75_borda

Name: lightblue/mitsu_top75_borda
Creator: lightblue
Published: 2024-05-30 06:45:28
License: 暂无描述

Hugging Face2024-05-30 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/lightblue/mitsu_top75_borda

下载链接

链接失效反馈

官方服务：

资源简介：

Mitsu数据集是一个多语言偏好数据集，使用人类编写的提示和来自7个大型语言模型的响应生成，并通过GPT-4进行5次评估。数据集包含提示和对应的最高/最低排名响应，用于ORPO训练。创建过程包括从不同模型中生成响应、使用GPT-4进行评估、计算排名一致性等步骤。数据集可用于DPO/PPO/ORPO训练，并提供了不同版本的训练数据集。实验结果表明，使用较少但一致性更高的数据进行训练可以提高下游任务的准确性。

提供机构：

lightblue

原始信息汇总

数据集概述

数据集特征

prompt: 数据类型为字符串。
chosen: 包含两个子特征
- content: 数据类型为字符串。
- role: 数据类型为字符串。
rejected: 包含两个子特征
- content: 数据类型为字符串。
- role: 数据类型为字符串。

数据集分割

train: 包含2018个示例，数据大小为6441587字节。

数据集大小与下载大小

下载大小: 3385538字节
数据集大小: 6441587字节

许可证

cc-by-nc-4.0

数据集创建方法

从lightblue/tagengo-gpt4采样响应，每种语言采样100个。
使用多种模型生成每个提示的响应。
使用gpt-4 (0125-Preview)评估响应，每次评估随机打乱响应顺序。
使用Kendalls W计算排名之间的一致性。

数据集使用

用于DPO/PPO/ORPO训练的数据集处理代码可在此处找到。
处理后的数据集版本包括：

实验结果

使用此数据集训练lightblue/suzume-llama-3-8B-multilingual进行ORPO训练。
实验显示，使用较少的数据进行训练可以提高下游任务的准确性。

引用方式

tex @article{devine2024sure, title={Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets}, author={Devine, Peter}, journal={arXiv preprint arXiv:2405.18952}, year={2024} }

开发者

Peter Devine (ptrdvn)

5,000+

优质数据集

54 个

任务类型

进入经典数据集