orpo-dpo-mix-40k-flat-mlx

Name: orpo-dpo-mix-40k-flat-mlx
Creator: MLX Community
Published: 2025-03-01 19:37:14
License: 暂无描述

Hugging Face2025-03-01 更新2025-03-02 收录

下载链接：

https://huggingface.co/datasets/mlx-community/orpo-dpo-mix-40k-flat-mlx

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个为直接与MLX-LM兼容而分割的orpo-dpo-mix-40k-flat数据集的版本，专门针对ORPO训练进行了优化。数据集分为三部分：训练集占90%，验证集占6%，测试集占4%。

提供机构：

MLX Community

创建时间：

2025-03-01

原始信息汇总

数据集概述

许可

Apache-2.0

任务类别

文本生成

语言

英语

数据规模

10K < n < 100K

数据集描述

该数据集是orpo-dpo-mix-40k-flat的拆分版本，专为直接与MLX-LM兼容而设计，特别是为了与ORPO训练兼容。

数据集被分为三个部分：

训练集：90%
验证集：6%
测试集：4%

示例用法

使用以下命令训练模型：

bash python -m mlx_lm.lora --model Qwen/Qwen2.5-3B-Instruct --train --test --num-layers 8 --data mlx-community/orpo-dpo-mix-40k --iters 1000 --batch-size 1 --val-batches 1 --steps-per-report 10 --adapter-path path --max-seq-length 1024 --grad-checkpoint --training-mode orpo or dpo --fine-tune-type lora --beta 0.1 --steps-per-eval 50 --test-batches 1

ORPO训练注意事项

MLX-LM目前不支持ORPO或DPO的本机训练，但将在未来的更新中加入。现在要使用数据集与MLX-LM进行ORPO训练，需要：

克隆我的MLX-examples的fork：https://github.com/Goekdeniz-Guelmez/mlx-examples.git
切换到分支 adding-support-for-orpo-training
对于DPO训练，使用分支 adding-dpo-training

更多关于参数的详细文档，请查看：MLX-LM LORA 文档

搜集汇总

数据集介绍

构建方式

该数据集名为orpo-dpo-mix-40k-flat-mlx，是针对MLX-LM模型进行直接使用而分割的orpo-dpo-mix-40k-flat版本，专门设计以兼容ORPO训练。数据集被划分为训练集、验证集和测试集，比例分别为90%、6%和4%，确保了数据集在机器学习模型训练中的有效性和可靠性。

特点

此数据集具有特定的任务类别，包括文本生成，且仅包含英语语言数据。其规模分类在10K到100K之间，体现了数据集在规模上的适中性和适用性。此外，数据集的构建旨在与ORPO训练兼容，为研究者和开发者提供了便利。

使用方法

在使用该数据集训练模型时，用户可以遵循提供的命令行示例进行操作。命令行参数包括模型选择、训练模式设置、数据路径指定等，用户需根据自身需求调整参数，例如层数、序列长度、训练迭代次数等，以实现个性化的模型训练。需要注意的是，MLX-LM目前尚不支持ORPO或DPO的原生训练，但未来更新将加入此功能。

背景与挑战

背景概述

orpo-dpo-mix-40k-flat-mlx数据集，是在机器学习语言模型研究领域具有重要应用价值的数据资源。该数据集基于orpo-dpo-mix-40k-flat版本构建，专为MLX-LM模型设计，确保了与ORPO训练的兼容性。它由Gökdeniz Gülmez维护，并在2023之前提供给了研究社区。该数据集的构建旨在推进文本生成任务的模型训练，它按照Apache-2.0协议进行许可，支持英语语言，其规模在10K至100K之间，分为训练集、验证集和测试集，比例分别为90%、6%和4%。

当前挑战

尽管orpo-dpo-mix-40k-flat-mlx数据集为文本生成任务提供了有力的数据支持，但在使用MLX-LM模型进行ORPO或DPO训练时，目前模型本身并不直接支持这两种训练模式。这要求用户必须修改模型的源代码，或者等待未来版本的更新。此外，数据集构建过程中的兼容性问题也提出了对模型适应性和灵活性的要求，这为研究者和开发者带来了额外的挑战。

常用场景

经典使用场景

针对自然语言处理领域的研究者而言，orpo-dpo-mix-40k-flat-mlx数据集是一个经过特别设计，以适应MLX-LM模型训练需求的文本生成数据集。该数据集将orpo和dpo两种类型的文本混合，经过分割后，能够为模型的训练、验证和测试提供全面的支持，从而使得研究者在进行文本生成任务时，能够获得更为准确和多样化的文本样本。

衍生相关工作

基于orpo-dpo-mix-40k-flat-mlx数据集，研究者可以开展一系列相关的工作，如文本生成模型的优化、文本风格迁移等。此外，该数据集也促进了MLX-LM模型在ORPO和DPO训练上的支持，为后续的研究提供了坚实的基础。

数据集最近研究