HR-MultiWOZ

arXiv2024-02-02 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2402.01018v1

下载链接

链接失效反馈

官方服务：

资源简介：

HR-MultiWOZ是由亚马逊创建的，专为HR领域的大型语言模型(LLM)代理训练和评估设计的对话数据集。该数据集包含550个完全标注的对话，覆盖10个HR相关领域，旨在解决HR领域中对话数据稀缺和隐私问题。数据集的创建过程主要依赖于LLM，辅以最小程度的人工标注，确保了时间和成本效率。HR-MultiWOZ不仅为HR自动化提供了丰富的、富有同情心的对话数据，还为其他领域的标注对话数据生成提供了一个可转移的方法。

HR-MultiWOZ is a conversational dataset developed by Amazon, specifically designed for training and evaluating large language model (LLM) agents in the human resources (HR) domain. This dataset contains 550 fully annotated conversations spanning 10 HR-related fields, aiming to address the scarcity of conversational data and privacy concerns within the HR sector. The creation of HR-MultiWOZ primarily relies on LLMs, supplemented with minimal manual annotation, which ensures time and cost efficiency. HR-MultiWOZ not only provides rich, empathetic conversational data for HR automation but also offers a transferable methodology for generating annotated conversational data across other domains.

提供机构：

亚马逊

创建时间：

2024-02-02

搜集汇总

数据集介绍

构建方式

HR-MultiWOZ数据集的构建融合了专家知识与大语言模型的生成能力，形成一套高效可迁移的流水线。首先，由HR领域专家设计涵盖10个领域的任务模式与用户画像，确保内容的专业性与多样性。随后，利用Claude模型基于用户画像生成逼真的对话场景，并对原始问答进行改写，融入共情表达，使对话自然流畅。最终，通过DeBERTa模型进行抽取式标注，辅以人工校验，确保对话状态信息的可提取性与准确性。这一流程大幅降低了人工成本，仅耗时两天便完成全部构建。

特点

该数据集具备四大显著特点：一是对话状态信息完全基于对话内容抽取，确保可追溯性；二是包含长实体信息，如详细的代码错误描述，为模型提供丰富上下文；三是聚焦HR专属任务，涵盖福利登记、绩效评估、安全事件报告等十个场景；四是对话充满共情，通过改写使HR助理的问题礼貌清晰，员工的回答自然完整。相较于现有数据集，HR-MultiWOZ在平均轮次、平均词元数及词汇多样性上均表现优异，更贴近真实HR交互场景。

使用方法

HR-MultiWOZ专为训练和评估HR领域的大语言模型智能体而设计。使用时，可将数据集划分为训练集和测试集，用于对话状态跟踪、意图识别及响应生成等任务。研究人员可直接利用对话及其标注的对话状态进行模型微调，也可借鉴其数据生成流水线，快速创建其他领域的标注对话数据。数据集采用CC-BY-4.0许可，鼓励学术与商业应用，未来还可扩展至多语言及API调用场景，进一步提升实用性。

背景与挑战

背景概述

在自然语言处理领域，面向任务型对话系统的研究长期聚焦于客服场景，而人力资源这一关键企业职能的智能化进程却相对滞后。HR-MultiWOZ数据集由亚马逊研究团队与米兰比可卡大学于2024年联合创建，旨在填补人力资源领域标注对话数据的空白。该数据集包含550段覆盖福利登记、绩效评估、培训申请等10个HR子领域的全标注对话，其核心研究问题在于如何构建既能精准提取长实体信息、又能展现共情能力的HR大语言模型智能体。作为首个开源的HR领域对话数据集，它通过融合大语言模型生成与最小化人工标注的高效流水线，为HR自动化研究树立了新基准，显著推动了企业级对话系统从通用客服向员工服务场景的范式迁移。

当前挑战

该数据集面临的核心挑战体现在三个层面。首先，领域特殊性要求对话状态必须同时满足可提取性、长实体包含性、HR专有性及共情性四大约束，而现有数据集均面向客户而非员工场景，导致模型在理解复杂HR流程与尊重性沟通间难以平衡。其次，数据构建过程中隐私保护与技术可行性形成尖锐矛盾——真实HR对话涉及员工敏感信息无法公开，迫使研究团队采用合成用户画像与LLM生成管线，但这又引入了合成数据偏差和语言文化多样性不足的问题。最后，标注质量管控面临精度瓶颈，DeBERTa模型在提取长实体时会出现重复、提示文本残留等错误，需依赖人工标注进行纠偏，而标注者间一致性维护与成本控制仍需优化。

常用场景

经典使用场景

HR-MultiWOZ作为首个面向人力资源领域的标注对话数据集，其经典使用场景在于构建和评估面向员工的HR大语言模型智能体。该数据集覆盖了福利登记、绩效评估、培训申请、安全事故报告、搬迁请求、骚扰报告、目标设定、访问权限申请、IT问题报告及休假申请等10个典型HR任务领域，通过提供550段自然、共情且信息完整的对话，为训练能够理解员工意图、提取长实体信息并保持礼貌交互的对话系统奠定了坚实基础。研究者可基于此数据集开发端到端的任务导向型对话模型，模拟HR助理与员工之间的真实互动流程。

实际应用

在实际应用中，HR-MultiWOZ可用于训练企业内部的HR数字助理，实现诸如自动审批休假申请、协助填写医疗报销表单、处理IT工单提交等重复性事务。基于该数据集训练的模型能够理解员工的具体需求，以共情且清晰的方式引导对话流程，从而将知识工作者从60%的重复性工作中解放出来，显著提升工作效率与员工满意度。此外，该数据集还可用于评估HR智能体在隐私保护、信息准确性及跨场景泛化能力方面的表现，为企业在不泄露真实员工隐私的前提下部署AI驱动的HR解决方案提供了安全可靠的测试平台。

衍生相关工作

HR-MultiWOZ的发布催生了多项衍生研究工作。其数据生成方法论已被借鉴用于其他垂直领域（如医疗咨询、法律助手）的对话数据集构建，验证了流水线的可迁移性。基于该数据集，研究者探索了结合共情计算与任务导向对话的联合建模框架，并发展了针对长实体提取的改进型DeBERTa模型。此外，后续工作还尝试将对话状态追踪与工具调用（如API集成）相结合，推动HR智能体从纯对话向任务执行演进。该数据集亦成为评估大语言模型在HR领域零样本泛化能力的重要基准，激发了关于HR自动化中偏见缓解、隐私保护与跨文化适应性的深入探讨。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集