lightblue/mitsu_top75_borda
收藏Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/lightblue/mitsu_top75_borda
下载链接
链接失效反馈官方服务:
资源简介:
Mitsu数据集是一个多语言偏好数据集,使用人类编写的提示和来自7个大型语言模型的响应生成,并通过GPT-4进行5次评估。数据集包含提示和对应的最高/最低排名响应,用于ORPO训练。创建过程包括从不同模型中生成响应、使用GPT-4进行评估、计算排名一致性等步骤。数据集可用于DPO/PPO/ORPO训练,并提供了不同版本的训练数据集。实验结果表明,使用较少但一致性更高的数据进行训练可以提高下游任务的准确性。
Mitsu数据集是一个多语言偏好数据集,使用人类编写的提示和来自7个大型语言模型的响应生成,并通过GPT-4进行5次评估。数据集包含提示和对应的最高/最低排名响应,用于ORPO训练。创建过程包括从不同模型中生成响应、使用GPT-4进行评估、计算排名一致性等步骤。数据集可用于DPO/PPO/ORPO训练,并提供了不同版本的训练数据集。实验结果表明,使用较少但一致性更高的数据进行训练可以提高下游任务的准确性。
提供机构:
lightblue
原始信息汇总
数据集概述
数据集特征
- prompt: 数据类型为字符串。
- chosen: 包含两个子特征
- content: 数据类型为字符串。
- role: 数据类型为字符串。
- rejected: 包含两个子特征
- content: 数据类型为字符串。
- role: 数据类型为字符串。
数据集分割
- train: 包含2018个示例,数据大小为6441587字节。
数据集大小与下载大小
- 下载大小: 3385538字节
- 数据集大小: 6441587字节
许可证
- cc-by-nc-4.0
数据集创建方法
- 从lightblue/tagengo-gpt4采样响应,每种语言采样100个。
- 使用多种模型生成每个提示的响应。
- 使用gpt-4 (0125-Preview)评估响应,每次评估随机打乱响应顺序。
- 使用Kendalls W计算排名之间的一致性。
数据集使用
- 用于DPO/PPO/ORPO训练的数据集处理代码可在此处找到。
- 处理后的数据集版本包括:
实验结果
- 使用此数据集训练lightblue/suzume-llama-3-8B-multilingual进行ORPO训练。
- 实验显示,使用较少的数据进行训练可以提高下游任务的准确性。
引用方式
tex @article{devine2024sure, title={Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets}, author={Devine, Peter}, journal={arXiv preprint arXiv:2405.18952}, year={2024} }
开发者
- Peter Devine (ptrdvn)



