LMSYS-USP

github2025-03-10 更新2025-03-02 收录

下载链接：

https://github.com/wangkevin02/USP

下载链接

链接失效反馈

官方服务：

资源简介：

LMSYS-USP数据集包含通过两阶段配置文件管道生成的带有推断用户配置文件的高质量对话。该数据集包括训练集（87,882个示例）、验证集（4,626个）和测试集（2,366个）。它来源于更大的LMSYS-1M数据集。

The LMSYS-USP Dataset contains high-quality conversations with inferred user profiles generated via a two-stage profiling pipeline. It includes a training set (87,882 examples), a validation set (4,626 examples), and a test set (2,366 examples). This dataset is derived from the larger LMSYS-1M Dataset.

创建时间：

2025-02-23

原始信息汇总

USP 数据集概述

数据集简介

USP（User Simulator with Implicit Profiles）是一个用于模拟真实用户行为或发言的模型，它基于指定的用户轮廓（profile）生成对话。该模型使得自动化动态多轮对话与大型语言模型（LLM）和场景重现成为可能。

数据集信息

数据集名称：LMSYS-USP
数据集描述：LMSYS-USP 数据集包含通过两阶段轮廓管道生成的带有推断用户轮廓的高质量对话。该数据集包括训练集（87,882个示例）、验证集（4,626个示例）和测试集（2,366个示例），是从更大的 LMSYS-1M 数据集派生出来的。
数据集访问：LMSYS-USP Dataset

模型信息

USP模型：能够根据给定的用户轮廓模拟多样化的用户动态，实现具有特定特征的用户与大型语言模型之间的真实对话重建。
Profile Generator模型：从对话中提取用户发言，生成详细的用户轮廓。
AI Detect Model模型：一个二分类器，用于判断对话中的句子是否由AI生成。

快速开始

环境设置：创建并激活 Python 环境使用 USP 模型。
使用USP模型：下载模型权重，通过示例代码实现对话生成。
使用Profile Generator模型：下载模型权重，通过示例代码生成用户轮廓。

方法概述

用户轮廓构建：使用两阶段方法生成包含客观事实和主观特征的天然用户描述。
条件监督微调（SFT）：结合轮廓和上下文信息训练模型，开发条件生成能力。
强化学习与周期一致性：通过强化学习提高用户模拟器在对话级别的自我表示能力。
多样化轮廓采样：根据训练数据建模真实用户特征分布，实现基于概率密度的轮廓采样或通过最近邻近似合成虚拟轮廓。

实验与评估

轮廓质量：使用提出的对话轮廓一致性（DPC）指标。
用户模拟器性能：评估真实性、一致性和多样性。

Demo

提供了 USP 与其他基线模型在多轮对话中的性能比较。

引用

如果使用该模型或数据集，请引用相关论文。

联系方式

对于问题或反馈，可以通过 GitHub Issues 或电子邮件联系作者。

搜集汇总

数据集介绍

构建方式

LMSYS-USP数据集的构建采用两阶段建模流程，首先通过对话内容推断用户特征，进而生成详细的用户画像，并以此构建高质量的对话数据集。该数据集由训练集（87,882示例）、验证集（4,626示例）和测试集（2,366示例）组成，源自更大的LMSYS-1M数据集。

特点

LMSYS-USP数据集的特点在于其包含的对话均具有推断出的用户画像，这些画像通过特定的建模流程生成，能够模拟出具有特定特征的用户行为或发言。数据集的设计使得对话内容丰富且多样化，能够与大型语言模型（LLM）进行动态的多轮交互。

使用方法

使用LMSYS-USP数据集时，用户首先需要设置对话环境，下载USP模型和Profile Generator模型的权重，然后根据提供的用户画像进行对话模拟。用户可以通过调用模型接口，根据上下文生成对话内容，进而模拟出真实用户的交互过程。

背景与挑战

背景概述

LMSYS-USP数据集是在2025年由王匡等研究人员提出的，旨在通过隐式用户档案模拟真实用户的行为或发言，以实现自动化动态的多轮对话和场景再现。该数据集的构建基于更大的LMSYS-1M数据集，包含了通过两阶段档案生成管道生成的具有推断用户档案的高质量对话。LMSYS-USP数据集包括训练集、验证集和测试集，主要应用于自然语言处理领域，特别是在大型语言模型与用户模拟器的多轮对话交互中，具有重要的研究价值和影响力。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：1)如何准确构建和利用用户档案以模拟真实用户的行为；2)如何保证用户模拟器在多轮对话中的行为一致性和多样性；3)如何在模拟对话中保持用户特征的语义一致性和风格一致性。同时，所解决的领域问题是自动化动态多轮对话中用户模拟的挑战，这要求模型能够基于用户档案生成逼真的对话，同时还需要解决如何有效训练和评估用户模拟器的性能问题。

常用场景

经典使用场景

LMSYS-USP数据集的核心应用场景在于模拟真实用户对话，其经典使用场景是通过用户隐式 profiles 生成模型来模拟特定用户的行为或发言，进而实现与大型语言模型(LLMs)的自动化动态多轮交互和场景再现。

衍生相关工作

基于LMSYS-USP数据集，研究者可以开展多方面的衍生工作，包括但不限于进一步的用户行为分析、对话系统的个性化定制、多模态交互的研究，以及在此基础上构建的评估指标和模型性能的提升等。

数据集最近研究