argilla/distilabel-intel-orca-kto
收藏Hugging Face2024-03-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/argilla/distilabel-intel-orca-kto
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是经过distilabel改进的版本,原始数据集是Intel/orca_dpo_pairs。改进的目的是为了提供更好的对齐数据集,用于开源LLMs和社区。数据集包含系统、提示、完成、标签、评分、状态和是否在gsm8k训练集中的信息。KTO(Kahneman-Tversky Optimization)方法被用于改进数据集,因为它可以在不同规模的参数下匹配或超过DPO(Direct Preference Optimization)的性能,并且能够处理极端的数据不平衡情况。
该数据集是经过distilabel改进的版本,原始数据集是Intel/orca_dpo_pairs。改进的目的是为了提供更好的对齐数据集,用于开源LLMs和社区。数据集包含系统、提示、完成、标签、评分、状态和是否在gsm8k训练集中的信息。KTO(Kahneman-Tversky Optimization)方法被用于改进数据集,因为它可以在不同规模的参数下匹配或超过DPO(Direct Preference Optimization)的性能,并且能够处理极端的数据不平衡情况。
提供机构:
argilla
原始信息汇总
数据集概述
数据集名称
- 名称: distilabel Orca Pairs for KTO
数据集特征
- 特征列表:
- system: 字符串类型
- prompt: 字符串类型
- completion: 字符串类型
- label: 布尔类型
- rating: 浮点数类型
- status: 字符串类型
- in_gsm8k_train: 布尔类型
数据集划分
- 训练集:
- 大小: 41,940,501字节
- 示例数量: 23,147
数据集大小
- 下载大小: 17,134,184字节
- 数据集大小: 41,940,501字节
配置
- 默认配置:
- 数据文件路径: data/train-*
标签
- 标签:
- rlaif
- kto
- rlhf
- distilabel
- synthetic
数据集来源
- 基于Intel/orca_dpo_pairs数据集,通过distilabel进行改进。
数据集改进
- 新增特征: in_gsm8k_train,指示数据集中的问题是否属于gsm8k训练集。
数据集用途
- 用于KTO方法,旨在提高模型在1B至30B参数规模上的性能,处理极端数据不平衡,并可能跳过监督微调直接进行KTO,以保持生成质量。
搜集汇总
数据集介绍

背景与挑战
背景概述
This dataset is a KTO-optimized version of the Intel/orca_dpo_pairs, enhanced with distilabel for improved diversity and alignment signals, including GSM8K train set indicators, suitable for fine-tuning LLMs up to 30B parameters.
以上内容由遇见数据集搜集并总结生成



