five

ClarQ-LLM

收藏
arXiv2024-09-15 更新2024-09-18 收录
下载链接:
https://github.com/ygan/ClarQ-LLM
下载链接
链接失效反馈
官方服务:
资源简介:
ClarQ-LLM是由伦敦玛丽女王大学开发的一个双语(英语-中文)任务导向对话评估框架,旨在评估对话代理在任务导向对话中提出澄清问题的能力。该数据集包含31种不同的任务类型,每种类型有10个独特的对话场景,总计310个任务实例。数据集的创建过程涉及四名博士和研究生在700人时的工作量,涵盖了从常见旅行计划到专业电子工程甚至虚构魔法对话的多样化任务。ClarQ-LLM主要应用于评估大型语言模型(LLMs)在对话中识别和消除不确定性的能力,旨在解决任务导向对话中的信息澄清问题。

ClarQ-LLM is a bilingual (English-Chinese) task-oriented dialogue evaluation framework developed by Queen Mary University of London, designed to assess the capability of dialogue agents to generate clarifying questions during task-oriented conversations. This dataset encompasses 31 distinct task types, with 10 unique dialogue scenarios for each type, totaling 310 task instances. The development of the dataset required a total of 700 person-hours of work from four doctoral and graduate students, covering a wide range of tasks from everyday travel planning, professional electronic engineering to even fictional magical dialogues. Primarily, ClarQ-LLM is utilized to evaluate the ability of large language models (LLMs) to identify and resolve uncertainties in conversations, with the goal of addressing information clarification issues in task-oriented dialogues.
提供机构:
伦敦玛丽女王大学
创建时间:
2024-09-10
原始信息汇总

ClarQ-LLM 数据集概述

数据集简介

ClarQ-LLM 是一个用于评估对话代理在任务导向对话中提出澄清问题的能力的基准数据集。该数据集包含任务、对话代理的交互脚本以及模型评估工具。

数据集内容

  • 任务类型: 任务导向对话
  • 语言: 中文和英文
  • 评估指标:
    • S: 成功率(越高越好)
    • D: 平均查询差异(越低越好)
    • L: 平均查询长度(越短越好)

基准结果

LLMs S (Chinese) D (Chinese) L (Chinese) S (English) D (English) L (English)
L3.1-405B-Inst - - - 0.605 0.473 118
GPT-4o 0.508 0.215 129.9 0.485 0.492 70.5
GPT-4 0.258 -0.72 94.3 0.296 -0.56 76.4
ERNIE 4.0 0.315 -0.82 141.0 - - -
GPT-3.5 0 -4.21 92.0 0.02 -2.79 52.6

数据集结构

  • 数据集分割:
    • 测试集: 文件1-26
    • 开发集: 文件25-31
  • 文件存储路径:
    • data/Chinese/ 用于中文任务
    • data/English/ 用于英文任务

使用说明

  1. 设置API密钥: 在运行脚本前,需在ALL_KEYS.py中替换占位符API密钥。
  2. 运行预缓存交互: 使用预缓存的交互数据(存储在log/目录中)进行结果复现。
  3. 自定义和调试: 通过检查缓存的提示和响应来调试GPT-4o代理之间的交互。
  4. LLAMA3.1交互: 更新API密钥并执行相关命令以运行LLAMA3.1交互。
  5. 评估: 使用预缓存结果评估模型性能。
  6. 运行交互: 设置密钥后,使用命令与代理进行交互。
  7. 开发自定义Seeker代理: 扩展player类并实现自定义的generate_response方法。

依赖项

运行以下命令安装所需包: bash pip install -r requirements.txt

示例对话

  • 中文对话示例: 冒险者与Jax的对话,讨论如何基于现有物品和技能建造避难所。
  • 英文对话示例: 冒险者与Jax的对话,讨论如何基于现有物品和技能建造避难所。

许可证

该项目基于MIT许可证。详细信息请参见LICENSE文件。

搜集汇总
数据集介绍
main_image_url
构建方式
ClarQ-LLM数据集通过精心设计的双语(英语-中文)对话任务构建,涵盖31种不同的任务类型,每种类型包含10个独特的对话场景。数据集的构建过程涉及四名博士和研究生共计700人小时的投入,确保了任务的多样性和复杂性。每个对话场景都经过详细标注,包括信息需求和澄清问题的要求,以模拟真实的信息提供者和寻求者之间的互动。此外,数据集还引入了基于GPT-4o或LLAMA3.1-405B的信息提供者代理,以确保对话的自然性和真实性。
特点
ClarQ-LLM数据集的主要特点在于其高度复杂和多样化的对话任务,这些任务要求信息寻求者通过澄清问题来消除对话中的不确定性。数据集不仅包含了传统的信息寻求任务,还特别强调了澄清问题的重要性,这在现有的基准数据集中较为罕见。此外,数据集中的信息提供者代理能够模拟真实的人类对话行为,为信息寻求者提供了一个动态和互动的测试环境。
使用方法
ClarQ-LLM数据集适用于评估和训练任务导向对话系统中的澄清问题能力。研究者和开发者可以使用该数据集来测试和改进其对话模型的澄清问题生成和理解能力。数据集提供了详细的对话背景和任务描述,以及相应的评估指标,如成功率、平均查询差异和平均查询长度,帮助用户全面评估模型的性能。通过与信息提供者代理的互动,模型可以在接近真实对话的环境中进行测试和训练,从而提升其在实际应用中的表现。
背景与挑战
背景概述
ClarQ-LLM数据集由Yujian Gan、Changling Li等研究人员于2021年创建,旨在评估任务导向对话系统中模型提出澄清问题的能力。该数据集包含31种不同任务类型,每种任务类型有10个独特的对话场景,涵盖英语和中文双语。ClarQ-LLM不仅提供对话任务和评估指标,还引入了一个由GPT-4o或LLAMA3.1-405B驱动的信息提供者代理,以模拟真实的人类对话。该数据集的核心研究问题是如何在任务导向对话中有效地提出澄清问题,以消除不确定性并收集必要信息。ClarQ-LLM的推出对对话系统研究领域产生了重要影响,为未来模型的改进提供了强有力的基准。
当前挑战
ClarQ-LLM数据集面临的挑战主要集中在两个方面。首先,构建过程中需要设计多样化的对话场景和任务类型,确保每个场景都能有效测试模型提出澄清问题的能力。其次,评估模型时需要克服传统评估方法的局限性,如BLEU和ROUGE等指标主要关注表面形式的匹配,而非语义内容或意图的准确性。ClarQ-LLM通过引入新的评估指标和信息提供者代理,解决了这些问题,但仍需面对模型在多轮对话中遗忘先前信息、生成冗长回复以及过度提问等实际应用中的挑战。
常用场景
经典使用场景
ClarQ-LLM 数据集的经典使用场景在于评估任务导向对话系统中信息寻求者提出澄清问题的能力。该数据集包含31种不同任务类型,每种类型有10个独特的对话场景,要求信息寻求者通过提问来解决不确定性并收集完成任务所需的信息。通过与信息提供者代理的直接交互,评估当前和未来信息寻求者代理在信息收集任务中的表现。
实际应用
ClarQ-LLM 数据集在实际应用中具有广泛的前景,特别是在需要高度交互性和信息澄清的领域,如客户服务、技术支持、医疗咨询等。通过训练和评估对话系统,可以显著提高系统在处理复杂任务和不确定性时的表现,从而提升用户体验和任务完成率。
衍生相关工作
ClarQ-LLM 数据集的发布催生了一系列相关研究,包括改进对话系统中澄清问题的生成算法、开发新的评估指标以更全面地衡量对话系统的性能,以及探索多模态对话系统在任务导向场景中的应用。此外,该数据集还激发了对现有对话系统在处理不确定性时策略的深入研究,推动了对话系统领域的技术创新和理论发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作