OpenPO Preference Dataset

github2024-11-27 更新2024-11-28 收录

下载链接：

https://github.com/dannylee1020/openpo

下载链接

链接失效反馈

官方服务：

资源简介：

OpenPO Preference Dataset 是一个开源库，用于简化从200多个大型语言模型（LLMs）中收集、管理和利用偏好数据的过程。通过自动化不同LLM输出的比较和收集人类偏好，帮助开发者以最小的努力构建更好、更精细调优的语言模型。

OpenPO Preference Dataset is an open-source library that simplifies the process of collecting, managing, and leveraging preference data from over 200 large language models (LLMs). By automating the comparison of outputs from different LLMs and the collection of human preferences, it helps developers build better, more finely-tuned language models with minimal effort.

创建时间：

2024-10-29

原始信息汇总

OpenPO 🐼

概述

OpenPO 是一个开源库，旨在简化收集、管理和利用偏好数据以优化大型语言模型（LLM）的过程。通过自动化不同LLM输出的比较并收集人类偏好，OpenPO帮助开发者以最小的努力构建更好、更精细调优的语言模型。

主要功能

多LLM支持：支持从HuggingFace和OpenRouter调用任何模型，包括GPT、Claude、Llama和Mixtral等流行模型。
OpenAI API兼容性：无缝集成OpenAI风格的客户端API，便于迁移和熟悉的开发者体验。
灵活存储：可插拔的适配器支持多种数据持久化选项。
精细调优准备：结构化数据输出，可立即用于模型精细调优和偏好优化。

安装

从PyPI安装（推荐）

使用pip安装OpenPO： bash pip install openpo

从源码安装

克隆仓库后运行以下命令： bash cd openpo poetry install

快速开始

默认情况下，OpenPO客户端使用HuggingFace的InferenceClient调用HuggingFace Model Hub上的模型。

python import os from openpo.client import OpenPO

client = OpenPO(api_key="your-huggingface-api-key")

response = client.chat.completions.create_preference( model="Qwen/Qwen2.5-Coder-32B-Instruct", messages=[ {"role": "system", "content": PROMPT}, {"role": "system", "content": MESSAGE}, ], diff_frequency=0.5, # 生成偏好响应50%的时间 )

print(response.choices[0].message.content)

OpenPO也支持OpenRouter。

python import os from openpo.client import OpenPO

client = OpenPO( api_key=your-openrouter-api-key, base_url="https://openrouter.ai/api/v1/chat/completions" )

response = client.chat.completions.create_preference( model= "qwen/qwen-2.5-coder-32b-instruct", message=[ {"role": "system", "content": PROMPT}, {"role": "user", "content": MESSAGE}, ], diff_frequency=0.5 )

print(response.choices[0].message.content)

可以通过pref_params参数控制第二个响应的随机性。当前支持的参数包括temperature和frequency_penalty。

python response = client.chat.completions.create_preference( model="Qwen/Qwen2.5-Coder-32B-Instruct", message=[ {"role": "system", "content": PROMPT}, {"role": "user", "content": MESSAGE}, ], diff_frequency=0.5, pref_params={"temperature": 1.5, "frequency_penalty": 0.5}, )

数据保存

使用提供者轻松上传和下载数据。

python import os from openpo.client import OpenPO from openpo.providers.huggingface import HuggingFaceStorage

storage = HuggingFaceStorage(repo_id="my-dataset-repo", api_key="hf-token") client = OpenPO(api_key="your-huggingface-token")

preference = {} # 偏好数据需要以{"prompt": ..., "preferred": ..., "rejected": ...}格式保存以进行精细调优 storage.save_data(data=preference, filename="my-data.json")

结构化输出（JSON模式）

OpenPO支持使用Pydantic模型进行结构化输出。

python from pydantic import BaseModel from openpo.client import OpenPO

client = OpenPO(api_key="your-huggingface-api-key")

class ResponseModel(BaseModel): response: str

res = client.chat.completions.create_preference( model="Qwen/Qwen2.5-Coder-32B-Instruct", messages=[ {"role": "system", "content": PROMPT}, {"role": "system", "content": MESSAGE}, ], diff_frequency=0.5, response_format=ResponseModel, )

试用

设置环境变量后运行以下命令以在本地试用演示： bash export HF_API_KEY=<your-api-key> docker compose up --build

搜集汇总

数据集介绍

构建方式

OpenPO Preference Dataset的构建基于对200多种大型语言模型（LLMs）的输出进行成对比较，并通过自动化流程收集人类偏好数据。该数据集通过OpenPO库实现，该库能够调用HuggingFace和OpenRouter上的多种模型，包括GPT、Claude、Llama和Mixtral等。数据集的构建过程中，OpenPO库自动生成成对响应，并记录人类对这些响应的偏好，从而为模型微调提供结构化的数据输出。

特点

OpenPO Preference Dataset的主要特点包括多模型支持、OpenAI API兼容性、灵活的数据存储选项以及即用型的微调准备数据结构。该数据集支持从HuggingFace和OpenRouter调用多种模型，确保了数据的多样性和广泛性。此外，其与OpenAI API的兼容性使得开发者可以轻松迁移和使用熟悉的开发体验。数据集还提供了可插拔的存储适配器，支持多种数据持久化选项，确保数据的高效管理和利用。

使用方法

使用OpenPO Preference Dataset时，开发者可以通过pip安装OpenPO库，并利用HuggingFace或OpenRouter的API密钥进行初始化。通过调用OpenPO库中的相关方法，可以生成成对响应并收集人类偏好数据。数据集支持结构化输出，便于直接用于模型微调和偏好优化。此外，OpenPO库还提供了数据存储功能，开发者可以将收集到的偏好数据上传至HuggingFace等平台，以便进一步分析和使用。

背景与挑战

背景概述

OpenPO Preference Dataset，由一支专注于语言模型（LLM）偏好优化的研究团队开发，旨在简化从200多种LLM中收集偏好数据的过程。该数据集的核心研究问题是如何通过自动化比较不同LLM的输出并收集人类偏好，以最小化开发者的工作量，从而构建更精细调优的语言模型。OpenPO的开发不仅提升了LLM的性能，还为相关领域的研究提供了宝贵的数据资源，推动了语言模型优化技术的发展。

当前挑战

OpenPO Preference Dataset在构建过程中面临多项挑战。首先，如何确保从多种LLM中收集到的偏好数据的一致性和可靠性是一个关键问题。其次，数据集的灵活存储和高效管理，尤其是在处理大规模数据时，需要解决技术上的复杂性。此外，OpenPO还需应对不同模型在结构化输出上的不一致性，特别是在与OpenRouter等平台的集成中，这增加了数据处理的难度。最后，如何确保数据集的广泛适用性和易用性，以便于不同背景的开发者能够轻松利用，也是一项重要的挑战。

常用场景

经典使用场景

在自然语言处理领域，OpenPO Preference Dataset 被广泛用于生成对大型语言模型（LLM）输出的成对偏好数据。通过自动化比较不同LLM的输出并收集人类偏好，该数据集为开发者提供了丰富的数据资源，以优化和微调语言模型。例如，研究者可以利用此数据集进行模型性能评估，通过对比不同模型的响应质量，确定最优模型配置。

衍生相关工作

基于 OpenPO Preference Dataset，研究者们开发了多种用于模型微调和性能评估的工具和方法。例如，一些研究工作利用该数据集进行多模态数据融合，以提升模型的跨领域适应能力。此外，还有工作探讨了如何利用成对偏好数据进行无监督学习，进一步减少对标注数据的依赖。这些衍生工作不仅丰富了数据集的应用场景，也推动了相关领域的技术进步。

数据集最近研究