LLM模拟用户与人类用户在任务导向对话中的平行对话数据集

Name: LLM模拟用户与人类用户在任务导向对话中的平行对话数据集
Creator: 清华大学计算机科学与技术系（DCST,Tsinghua University）
Published: 2025-09-22 19:30:39
License: 暂无描述

arXiv2025-09-22 更新2025-11-21 收录

下载链接：

https://github.com/wzf2000/RecLLMSim/tree/Human_Vs_Agent

下载链接

链接失效反馈

官方服务：

资源简介：

本研究创建了一个名为“LLM模拟用户与人类用户在任务导向对话中的平行对话数据集”的数据集，包含1856条对话记录，旨在比较大型语言模型模拟的用户与真实人类用户在任务导向对话中的行为差异。数据集涵盖四种代表性行话场景：准备礼物、旅行计划、食谱计划和技能学习计划。该数据集为评估和改进基于LLM的用户模拟框架提供了宝贵资源。

This study constructs a parallel dialogue dataset titled "Parallel Dialogue Dataset Between LLM-Simulated Users and Human Users in Task-Oriented Dialogue". Comprising 1,856 dialogue records, this dataset aims to compare behavioral disparities between large language model (LLM)-simulated users and real human users during task-oriented conversations. It covers four representative scenarios with domain-specific jargon: gift preparation, travel planning, recipe planning, and skill learning planning. This dataset serves as a valuable resource for evaluating and refining LLM-based user simulation frameworks.

提供机构：

清华大学计算机科学与技术系（DCST,Tsinghua University）

创建时间：

2025-09-22

搜集汇总

数据集介绍

构建方式

在任务导向对话系统研究领域，为系统比较人类用户与大语言模型模拟用户的行为差异，本研究构建了平行对话数据集。通过设计四种典型对话场景（旅行规划、食谱制定、礼物准备和技能学习），在统一实验环境下分别采集人类参与者和基于GPT系列模型的智能体对话数据。人类用户通过自主选择预设用户画像并完成真实任务需求来生成对话，而模拟用户则采用随机分配相同画像库并结合多轮引导指令的方式生成响应，最终形成包含2124条人类对话与1856条模拟对话的平行语料库。

特点

该数据集的核心特征体现在多维度的行为对比分析框架上，涵盖对话策略、交互风格和对话评估三大方面共十个维度。数据揭示了人类用户更倾向于采用渐进式问题解决策略，提问具有更高的上下文相关性和具体性，而模拟用户则表现出整体性规划偏好与过度礼貌的语言风格。特别值得注意的是，在技能学习场景中模拟用户展现出更强的具体问题提出能力，但在礼物准备场景中则缺乏对选项的深度优化，这种场景依赖性差异为理解模拟用户行为边界提供了重要依据。

使用方法

该数据集适用于对话系统评估、用户模拟优化和交互行为研究等多个方向。研究者可通过对比分析平行对话数据，量化评估大语言模型模拟用户与真实用户的行为差异，进而改进模拟算法。具体使用时，可基于提供的多维度标注体系（如问题广度、上下文依赖性、反馈极性等）进行统计分析，或利用对话序列数据训练更精准的用户行为预测模型。数据集的场景多样性使其能够支持跨领域泛化研究，为构建更拟人化的对话系统提供实证基础。

背景与挑战

背景概述

随着任务导向对话系统在满足多样化用户需求中的重要性日益凸显，清华大学与埃默里大学的研究团队于2025年提出了LLM模拟用户与人类用户的平行对话数据集。该数据集聚焦于个性化任务对话场景，旨在系统比较大型语言模型模拟用户与真实人类用户在对话行为上的异同。研究团队构建了涵盖礼物准备、旅行规划等四个典型场景的平行对话语料，通过多维分析框架探索对话策略、交互风格等核心问题，为对话系统开发提供了关键实证基础，推动了基于LLM的用户模拟技术在信息检索领域的发展。

当前挑战

该数据集致力于解决任务导向对话系统中用户行为仿真的核心挑战，包括如何准确捕捉人类对话的上下文依赖性与反馈多样性。在构建过程中，研究面临多重挑战：首先需要平衡模拟用户与真实用户在问题解决路径上的差异，例如人类偏好渐进式策略而模型倾向全局规划；其次需克服语言风格一致性问题，避免模拟用户过度礼貌或形式化；此外还需设计有效的评估机制来量化对话效用与幻象感知，确保生成数据的真实性与可用性。

常用场景

经典使用场景

在任务导向对话系统开发领域，该平行对话数据集为评估大语言模型模拟用户与真实人类行为差异提供了关键基准。通过涵盖旅行规划、礼物准备、食谱制定和技能学习四大典型场景，数据集支持研究者系统分析对话策略、交互风格和评估维度，为构建更拟人化的对话代理奠定数据基础。

解决学术问题

该数据集有效解决了对话系统中用户模拟可信度的核心学术问题，通过十维度量化框架揭示了LLM模拟用户在问题解决路径、上下文依赖性和反馈机制等方面与人类的结构性差异。其贡献在于突破了传统模拟数据缺乏人类行为参照的局限，为优化生成对话的真实性与实用性提供了实证依据。

衍生相关工作

该数据集催生了多项对话系统创新研究，如基于行为差异的个性化模拟框架构建、多维度评估指标体系的扩展应用。后续研究进一步探索了跨场景泛化能力，推动了RecAgent等对话推荐系统的演进，为可控用户模拟技术提供了理论支撑与方法论启示。

以上内容由遇见数据集搜集并总结生成