five

lightblue/mitsu_top75_borda

收藏
Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/lightblue/mitsu_top75_borda
下载链接
链接失效反馈
官方服务:
资源简介:
Mitsu数据集是一个多语言偏好数据集,使用人类编写的提示和来自7个大型语言模型的响应生成,并通过GPT-4进行5次评估。数据集包含提示和对应的最高/最低排名响应,用于ORPO训练。创建过程包括从不同模型中生成响应、使用GPT-4进行评估、计算排名一致性等步骤。数据集可用于DPO/PPO/ORPO训练,并提供了不同版本的训练数据集。实验结果表明,使用较少但一致性更高的数据进行训练可以提高下游任务的准确性。

Mitsu数据集是一个多语言偏好数据集,使用人类编写的提示和来自7个大型语言模型的响应生成,并通过GPT-4进行5次评估。数据集包含提示和对应的最高/最低排名响应,用于ORPO训练。创建过程包括从不同模型中生成响应、使用GPT-4进行评估、计算排名一致性等步骤。数据集可用于DPO/PPO/ORPO训练,并提供了不同版本的训练数据集。实验结果表明,使用较少但一致性更高的数据进行训练可以提高下游任务的准确性。
提供机构:
lightblue
原始信息汇总

数据集概述

数据集特征

  • prompt: 数据类型为字符串。
  • chosen: 包含两个子特征
    • content: 数据类型为字符串。
    • role: 数据类型为字符串。
  • rejected: 包含两个子特征
    • content: 数据类型为字符串。
    • role: 数据类型为字符串。

数据集分割

  • train: 包含2018个示例,数据大小为6441587字节。

数据集大小与下载大小

  • 下载大小: 3385538字节
  • 数据集大小: 6441587字节

许可证

  • cc-by-nc-4.0

数据集创建方法

  1. lightblue/tagengo-gpt4采样响应,每种语言采样100个。
  2. 使用多种模型生成每个提示的响应。
  3. 使用gpt-4 (0125-Preview)评估响应,每次评估随机打乱响应顺序。
  4. 使用Kendalls W计算排名之间的一致性。

数据集使用

实验结果

引用方式

tex @article{devine2024sure, title={Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets}, author={Devine, Peter}, journal={arXiv preprint arXiv:2405.18952}, year={2024} }

开发者

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作