five

ClarQ-LLM|对话系统数据集|语言模型评估数据集

收藏
arXiv2024-09-15 更新2024-09-18 收录
对话系统
语言模型评估
下载链接:
https://github.com/ygan/ClarQ-LLM
下载链接
链接失效反馈
资源简介:
ClarQ-LLM是由伦敦玛丽女王大学开发的一个双语(英语-中文)任务导向对话评估框架,旨在评估对话代理在任务导向对话中提出澄清问题的能力。该数据集包含31种不同的任务类型,每种类型有10个独特的对话场景,总计310个任务实例。数据集的创建过程涉及四名博士和研究生在700人时的工作量,涵盖了从常见旅行计划到专业电子工程甚至虚构魔法对话的多样化任务。ClarQ-LLM主要应用于评估大型语言模型(LLMs)在对话中识别和消除不确定性的能力,旨在解决任务导向对话中的信息澄清问题。
提供机构:
伦敦玛丽女王大学
创建时间:
2024-09-10
原始信息汇总

ClarQ-LLM 数据集概述

数据集简介

ClarQ-LLM 是一个用于评估对话代理在任务导向对话中提出澄清问题的能力的基准数据集。该数据集包含任务、对话代理的交互脚本以及模型评估工具。

数据集内容

  • 任务类型: 任务导向对话
  • 语言: 中文和英文
  • 评估指标:
    • S: 成功率(越高越好)
    • D: 平均查询差异(越低越好)
    • L: 平均查询长度(越短越好)

基准结果

LLMs S (Chinese) D (Chinese) L (Chinese) S (English) D (English) L (English)
L3.1-405B-Inst - - - 0.605 0.473 118
GPT-4o 0.508 0.215 129.9 0.485 0.492 70.5
GPT-4 0.258 -0.72 94.3 0.296 -0.56 76.4
ERNIE 4.0 0.315 -0.82 141.0 - - -
GPT-3.5 0 -4.21 92.0 0.02 -2.79 52.6

数据集结构

  • 数据集分割:
    • 测试集: 文件1-26
    • 开发集: 文件25-31
  • 文件存储路径:
    • data/Chinese/ 用于中文任务
    • data/English/ 用于英文任务

使用说明

  1. 设置API密钥: 在运行脚本前,需在ALL_KEYS.py中替换占位符API密钥。
  2. 运行预缓存交互: 使用预缓存的交互数据(存储在log/目录中)进行结果复现。
  3. 自定义和调试: 通过检查缓存的提示和响应来调试GPT-4o代理之间的交互。
  4. LLAMA3.1交互: 更新API密钥并执行相关命令以运行LLAMA3.1交互。
  5. 评估: 使用预缓存结果评估模型性能。
  6. 运行交互: 设置密钥后,使用命令与代理进行交互。
  7. 开发自定义Seeker代理: 扩展player类并实现自定义的generate_response方法。

依赖项

运行以下命令安装所需包: bash pip install -r requirements.txt

示例对话

  • 中文对话示例: 冒险者与Jax的对话,讨论如何基于现有物品和技能建造避难所。
  • 英文对话示例: 冒险者与Jax的对话,讨论如何基于现有物品和技能建造避难所。

许可证

该项目基于MIT许可证。详细信息请参见LICENSE文件。

AI搜集汇总
数据集介绍
main_image_url
构建方式
ClarQ-LLM数据集通过精心设计的双语(英语-中文)对话任务构建,涵盖31种不同的任务类型,每种类型包含10个独特的对话场景。数据集的构建过程涉及四名博士和研究生共计700人小时的投入,确保了任务的多样性和复杂性。每个对话场景都经过详细标注,包括信息需求和澄清问题的要求,以模拟真实的信息提供者和寻求者之间的互动。此外,数据集还引入了基于GPT-4o或LLAMA3.1-405B的信息提供者代理,以确保对话的自然性和真实性。
特点
ClarQ-LLM数据集的主要特点在于其高度复杂和多样化的对话任务,这些任务要求信息寻求者通过澄清问题来消除对话中的不确定性。数据集不仅包含了传统的信息寻求任务,还特别强调了澄清问题的重要性,这在现有的基准数据集中较为罕见。此外,数据集中的信息提供者代理能够模拟真实的人类对话行为,为信息寻求者提供了一个动态和互动的测试环境。
使用方法
ClarQ-LLM数据集适用于评估和训练任务导向对话系统中的澄清问题能力。研究者和开发者可以使用该数据集来测试和改进其对话模型的澄清问题生成和理解能力。数据集提供了详细的对话背景和任务描述,以及相应的评估指标,如成功率、平均查询差异和平均查询长度,帮助用户全面评估模型的性能。通过与信息提供者代理的互动,模型可以在接近真实对话的环境中进行测试和训练,从而提升其在实际应用中的表现。
背景与挑战
背景概述
ClarQ-LLM数据集由Yujian Gan、Changling Li等研究人员于2021年创建,旨在评估任务导向对话系统中模型提出澄清问题的能力。该数据集包含31种不同任务类型,每种任务类型有10个独特的对话场景,涵盖英语和中文双语。ClarQ-LLM不仅提供对话任务和评估指标,还引入了一个由GPT-4o或LLAMA3.1-405B驱动的信息提供者代理,以模拟真实的人类对话。该数据集的核心研究问题是如何在任务导向对话中有效地提出澄清问题,以消除不确定性并收集必要信息。ClarQ-LLM的推出对对话系统研究领域产生了重要影响,为未来模型的改进提供了强有力的基准。
当前挑战
ClarQ-LLM数据集面临的挑战主要集中在两个方面。首先,构建过程中需要设计多样化的对话场景和任务类型,确保每个场景都能有效测试模型提出澄清问题的能力。其次,评估模型时需要克服传统评估方法的局限性,如BLEU和ROUGE等指标主要关注表面形式的匹配,而非语义内容或意图的准确性。ClarQ-LLM通过引入新的评估指标和信息提供者代理,解决了这些问题,但仍需面对模型在多轮对话中遗忘先前信息、生成冗长回复以及过度提问等实际应用中的挑战。
常用场景
经典使用场景
ClarQ-LLM 数据集的经典使用场景在于评估任务导向对话系统中信息寻求者提出澄清问题的能力。该数据集包含31种不同任务类型,每种类型有10个独特的对话场景,要求信息寻求者通过提问来解决不确定性并收集完成任务所需的信息。通过与信息提供者代理的直接交互,评估当前和未来信息寻求者代理在信息收集任务中的表现。
实际应用
ClarQ-LLM 数据集在实际应用中具有广泛的前景,特别是在需要高度交互性和信息澄清的领域,如客户服务、技术支持、医疗咨询等。通过训练和评估对话系统,可以显著提高系统在处理复杂任务和不确定性时的表现,从而提升用户体验和任务完成率。
衍生相关工作
ClarQ-LLM 数据集的发布催生了一系列相关研究,包括改进对话系统中澄清问题的生成算法、开发新的评估指标以更全面地衡量对话系统的性能,以及探索多模态对话系统在任务导向场景中的应用。此外,该数据集还激发了对现有对话系统在处理不确定性时策略的深入研究,推动了对话系统领域的技术创新和理论发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

PQAref

PQAref数据集是一个用于生物医学领域参考问答任务的数据集,旨在微调大型语言模型。该数据集包含三个部分:指令(问题)、摘要(从PubMed检索的相关摘要,包含PubMed ID、摘要标题和内容)和答案(预期答案,包含PubMed ID形式的参考)。数据集通过半自动方式创建,利用了PubMedQA数据集中的问题。

huggingface 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

UAVDT

UAVDT是一个用于目标检测任务的数据集。

github 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录