five

ClarQ-LLM

收藏
arXiv2024-09-10 更新2024-09-12 收录
下载链接:
https://arxiv.org/abs/2409.06097
下载链接
链接失效反馈
官方服务:
资源简介:
ClarQ-LLM是由伦敦玛丽女王大学和广西师范大学共同创建的双语(英汉)任务导向对话评估框架,旨在评估对话代理在任务导向对话中提出澄清问题的能力。该数据集包含31种不同任务类型,每种类型有10个独特的对话场景,总计310个任务实例。数据集的创建过程涉及四名博士和研究生共计700人小时的努力,确保了任务的多样性和复杂性。ClarQ-LLM主要用于评估对话代理在任务完成过程中通过对话收集必要信息的能力,特别是在处理不确定性时的表现。

ClarQ-LLM is a bilingual (English-Chinese) task-oriented dialogue evaluation framework jointly developed by Queen Mary University of London and Guangxi Normal University. It is designed to assess the capability of dialogue agents to pose clarifying questions during task-oriented dialogues. The dataset encompasses 31 distinct task types, with 10 unique dialogue scenarios per type, resulting in a total of 310 task instances. A total of 700 person-hours of work from four doctoral and graduate researchers was invested in the dataset's development, which ensures the diversity and complexity of the included tasks. Primarily, ClarQ-LLM is utilized to evaluate dialogue agents' ability to gather necessary information via dialogue throughout task completion, particularly their performance when handling uncertain situations.
提供机构:
伦敦玛丽女王大学
创建时间:
2024-09-10
搜集汇总
数据集介绍
main_image_url
构建方式
ClarQ-LLM数据集的构建方式旨在为评估任务导向型对话中模型提出澄清问题的能力提供一个强大的基准。该数据集包含了31种不同的任务类型,每种类型都有10个独特的对话场景,涉及信息寻求者和提供者之间的对话。这些场景要求寻求者通过提问来消除不确定性并收集完成任务所需的信息。与传统基于固定对话内容的评估方法不同,ClarQ-LLM包括一个提供者对话代理,以复制基准中的原始人类提供者。这使得当前和未来的寻求者代理能够通过直接与提供者代理互动来测试他们通过对话完成信息收集任务的能力。
特点
ClarQ-LLM数据集的特点在于其多样性和复杂性。数据集中的任务涵盖了从旅行规划到电子工程等不同领域,以及虚构的魔法对话。每个任务都有详细的背景信息,并且提供者故意使用包含不确定性的语言,以促使寻求者提出澄清问题。此外,数据集还包含了人类提供者响应的树状结构注释,以帮助提供者代理更准确地模拟人类提供者的需求和语言。数据集的评价指标包括成功率、平均查询差异和平均查询长度,这些指标旨在评估寻求者代理的效率和准确性。
使用方法
使用ClarQ-LLM数据集的方法包括评估寻求者代理在任务导向型对话中的表现。首先,需要选择一个寻求者代理模型,如GPT系列、Llama2-70B-Chat或ERNIE 4.0。然后,在测试集中运行模型,并记录其在不同任务类型上的成功率、平均查询差异和平均查询长度。这些指标可以帮助研究人员了解模型在提出澄清问题、理解对话内容和完成任务方面的能力。此外,数据集还提供了一个基于GPT-4o或LLAMA3.1-405B的提供者代理,以模拟真实的人类提供者,并帮助寻求者代理进行对话。研究人员可以使用这个代理来测试他们的模型,并评估它们在实际对话环境中的表现。
背景与挑战
背景概述
在面向任务的对话系统研究中,ClarQ-LLM 数据集由伦敦玛丽女王大学和广西师范大学的研究人员于 2021 年创建。该数据集旨在评估对话代理在任务导向对话中提出澄清问题的能力。ClarQ-LLM 包含 31 种不同的任务类型,每种类型都有 10 个独特的对话场景,这些场景要求信息寻求者通过提出问题来解决不确定性并收集完成任务所需的信息。与传统评估代理基于固定对话内容的基准不同,ClarQ-LLM 包含一个提供者对话代理,以复制基准中的原始人类提供者。这使得当前和未来的寻求者代理可以直接与我们的提供者代理进行交互,以测试他们通过对话完成信息收集任务的能力。在测试中,LLAMA3.1 405B 寻求者代理的最大成功率仅为 60.05%,这表明 ClarQ-LLM 对未来研究提出了强大的挑战。
当前挑战
ClarQ-LLM 数据集带来的挑战包括:1) 所解决的领域问题是评估对话代理在任务导向对话中提出澄清问题的能力;2) 构建过程中遇到的挑战包括确保对话代理能够准确模拟人类提供者的意图,并能够根据任务背景和对话内容生成合适的响应。此外,ClarQ-LLM 还需要评估对话代理在完成任务时的成功率、平均查询差异和平均查询长度,以全面评估其性能。
常用场景
经典使用场景
ClarQ-LLM数据集被广泛应用于评估对话系统中信息寻求者代理在面向任务的对话中提出澄清问题的能力。该数据集包含了31种不同类型的任务,每种类型都有10个独特的对话场景,模拟了信息寻求者和提供者之间的互动。这些场景要求寻求者通过提问来消除不确定性并收集完成任务所需的信息。ClarQ-LLM的独特之处在于它包含了一个提供者对话代理,该代理复制了原始的人类提供者,使得寻求者代理可以直接与其互动,以测试他们在对话中完成信息收集任务的能力。
实际应用
ClarQ-LLM数据集在实际应用中具有广泛的意义。例如,它可以用于训练和评估虚拟助手、客服机器人等对话系统,以提升它们在处理模糊或不确定信息时的能力。此外,ClarQ-LLM还可以用于研究和开发新的对话技术,例如自适应对话管理、上下文理解等,从而推动对话系统技术的进步。ClarQ-LLM的评估框架和指标为实际应用中的对话系统提供了更全面的评估标准,有助于提升对话系统的交互质量和用户体验。
衍生相关工作
ClarQ-LLM数据集的发布促进了一系列相关研究的开展。例如,研究人员可以基于ClarQ-LLM设计新的对话任务和评估指标,以进一步测试和提升对话系统的性能。此外,ClarQ-LLM还可以与其他数据集和模型结合,进行跨领域的研究和比较,以探索对话系统的通用性和适应性。ClarQ-LLM的发布为对话系统领域的研究和应用提供了新的思路和方向,推动了该领域的持续发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作