five

argilla/distilabel-intel-orca-kto

收藏
Hugging Face2024-03-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/argilla/distilabel-intel-orca-kto
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是经过distilabel改进的版本,原始数据集是Intel/orca_dpo_pairs。改进的目的是为了提供更好的对齐数据集,用于开源LLMs和社区。数据集包含系统、提示、完成、标签、评分、状态和是否在gsm8k训练集中的信息。KTO(Kahneman-Tversky Optimization)方法被用于改进数据集,因为它可以在不同规模的参数下匹配或超过DPO(Direct Preference Optimization)的性能,并且能够处理极端的数据不平衡情况。

该数据集是经过distilabel改进的版本,原始数据集是Intel/orca_dpo_pairs。改进的目的是为了提供更好的对齐数据集,用于开源LLMs和社区。数据集包含系统、提示、完成、标签、评分、状态和是否在gsm8k训练集中的信息。KTO(Kahneman-Tversky Optimization)方法被用于改进数据集,因为它可以在不同规模的参数下匹配或超过DPO(Direct Preference Optimization)的性能,并且能够处理极端的数据不平衡情况。
提供机构:
argilla
原始信息汇总

数据集概述

数据集名称

  • 名称: distilabel Orca Pairs for KTO

数据集特征

  • 特征列表:
    • system: 字符串类型
    • prompt: 字符串类型
    • completion: 字符串类型
    • label: 布尔类型
    • rating: 浮点数类型
    • status: 字符串类型
    • in_gsm8k_train: 布尔类型

数据集划分

  • 训练集:
    • 大小: 41,940,501字节
    • 示例数量: 23,147

数据集大小

  • 下载大小: 17,134,184字节
  • 数据集大小: 41,940,501字节

配置

  • 默认配置:
    • 数据文件路径: data/train-*

标签

  • 标签:
    • rlaif
    • kto
    • rlhf
    • distilabel
    • synthetic

数据集来源

数据集改进

  • 新增特征: in_gsm8k_train,指示数据集中的问题是否属于gsm8k训练集。

数据集用途

  • 用于KTO方法,旨在提高模型在1B至30B参数规模上的性能,处理极端数据不平衡,并可能跳过监督微调直接进行KTO,以保持生成质量。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
This dataset is a KTO-optimized version of the Intel/orca_dpo_pairs, enhanced with distilabel for improved diversity and alignment signals, including GSM8K train set indicators, suitable for fine-tuning LLMs up to 30B parameters.
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作