argilla/distilabel-intel-orca-kto

Name: argilla/distilabel-intel-orca-kto
Creator: argilla
Published: 2024-03-19 12:16:06
License: 暂无描述

Hugging Face2024-03-19 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/argilla/distilabel-intel-orca-kto

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是经过distilabel改进的版本，原始数据集是Intel/orca_dpo_pairs。改进的目的是为了提供更好的对齐数据集，用于开源LLMs和社区。数据集包含系统、提示、完成、标签、评分、状态和是否在gsm8k训练集中的信息。KTO（Kahneman-Tversky Optimization）方法被用于改进数据集，因为它可以在不同规模的参数下匹配或超过DPO（Direct Preference Optimization）的性能，并且能够处理极端的数据不平衡情况。

提供机构：

argilla

原始信息汇总

数据集概述

数据集名称

名称: distilabel Orca Pairs for KTO

数据集特征

特征列表:
- system: 字符串类型
- prompt: 字符串类型
- completion: 字符串类型
- label: 布尔类型
- rating: 浮点数类型
- status: 字符串类型
- in_gsm8k_train: 布尔类型

数据集划分

训练集:
- 大小: 41,940,501字节
- 示例数量: 23,147

数据集大小

下载大小: 17,134,184字节
数据集大小: 41,940,501字节

配置

默认配置:
- 数据文件路径: data/train-*

数据集来源

基于Intel/orca_dpo_pairs数据集，通过distilabel进行改进。

数据集改进

新增特征: in_gsm8k_train，指示数据集中的问题是否属于gsm8k训练集。

数据集用途

用于KTO方法，旨在提高模型在1B至30B参数规模上的性能，处理极端数据不平衡，并可能跳过监督微调直接进行KTO，以保持生成质量。

搜集汇总

数据集介绍

背景与挑战

背景概述

This dataset is a KTO-optimized version of the Intel/orca_dpo_pairs, enhanced with distilabel for improved diversity and alignment signals, including GSM8K train set indicators, suitable for fine-tuning LLMs up to 30B parameters.

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集