five

DialogTool|多轮对话数据集|语言模型评估数据集

收藏
arXiv2025-05-20 更新2025-05-21 收录
多轮对话
语言模型评估
下载链接:
http://arxiv.org/abs/2505.13328v1
下载链接
链接失效反馈
资源简介:
DialogTool是一个多轮对话数据集,旨在评估大型语言模型(LLM)在多轮交互中使用工具的能力。该数据集考虑了工具使用的整个生命周期,包括六个关键任务,分布在三个阶段:工具创建、工具利用和角色一致响应。数据集基于现有的任务导向对话数据集,通过将服务、领域、槽位和意图转换为不同的应用程序、参数和API,并模拟API调用,创建了一个虚拟的移动环境。DialogTool旨在解决现有基准测试主要关注无状态的单轮交互或部分评估的问题,并提供了对13种不同LLM的全面评估。
提供机构:
The Chinese University of Hong Kong, Macquire University, Beihang Univeristy, The University of Edinburgh, Georg-August Universität Göttingen, The University of Hong Kong, Université de Montréal&MILA, MoE Key Laboratory of High Confidence Software Technologies
创建时间:
2025-05-20
原始信息汇总

数据集概述:Rethinking Stateful Tool Use in Multi-Turn Dialogues: Benchmarks and Challenges

基本信息

  • 标题: Rethinking Stateful Tool Use in Multi-Turn Dialogues: Benchmarks and Challenges
  • 作者: Hongru Wang, Wenyu Huang, Yufei Wang, Yuanhao Xi, Jianqiao Lu, Huan Zhang, Nan Hu, Zeming Liu, Jeff Z. Pan, Kam-Fai Wong
  • 提交日期: 19 May 2025
  • arXiv标识符: arXiv:2505.13328v1 [cs.CL]
  • DOI: https://doi.org/10.48550/arXiv.2505.13328

数据集描述

  • 数据集名称: DialogTool
  • 特点: 多轮对话数据集,包含状态化工具交互,涵盖工具使用的整个生命周期。
  • 关键任务:
    1. 工具创建
    2. 工具利用: 工具感知、工具选择、工具执行
    3. 角色一致响应: 响应生成和角色扮演

评估环境

  • 名称: VirtualMobile
  • 功能: 模拟API调用并评估创建API的鲁棒性。

评估内容

  • 评估对象: 13种不同的开源和闭源LLM
  • 主要发现: 现有最先进的LLM在长期工具使用方面表现不佳。

相关链接

AI搜集汇总
数据集介绍
main_image_url
构建方式
DialogTool数据集的构建基于现有任务导向对话数据集(TDD),通过将服务/领域、槽位和意图转化为不同的应用、参数和API,将对话中的数据库查询操作转化为标准化的API函数调用。具体步骤包括:1)从SGD和MultiWoZ等数据集中筛选种子数据;2)通过设置转换(Setting Shift)将任务导向对话的标注转化为工具学习的标签;3)通过角色扮演(Role Playing)为对话代理赋予不同角色,生成多样化的回应风格。此外,还构建了VirtualMobile虚拟环境,模拟API调用并验证生成工具的正确性。
特点
DialogTool数据集具有以下显著特点:1)涵盖多轮对话中的状态化工具使用全生命周期,包括工具创建、工具利用(工具感知、工具选择、工具执行)和角色一致回应(回应生成、角色扮演)三个阶段;2)包含16个应用和31个API,平均每个API有4.2个输入参数和7.5个返回参数,复杂度较高;3)支持多应用交互,训练集中50%的对话涉及多个应用;4)引入角色扮演机制,提供50种预定义角色配置,增强用户交互体验。
使用方法
DialogTool数据集的使用方法主要包括:1)工具创建:根据API描述生成可执行的Python代码函数,并通过测试用例验证其正确性;2)工具利用:包括工具感知(判断是否需要调用工具)、工具选择(从API列表中选择合适的API)和工具执行(填充所有必需参数并执行API);3)角色一致回应:根据预定义角色配置生成风格化的系统回应。评估时可采用扁平化或分层策略选择API,并通过BLEU、Rouge.L等指标衡量生成回应的质量,同时使用GPT-4等模型评估角色一致性。
背景与挑战
背景概述
DialogTool是由香港中文大学、爱丁堡大学等机构的研究团队于2025年提出的多轮对话数据集,旨在解决语言模型在状态化工具使用方面的评估空白。该数据集创新性地构建了涵盖工具创建、工具利用(包括工具感知、工具选择、工具执行)和角色一致性响应(包括响应生成和角色扮演)三个阶段的完整生命周期评估框架,并配套开发了VirtualMobile虚拟移动环境来模拟API调用。作为首个关注多轮对话中状态化工具交互的基准测试,DialogTool通过重构任务导向对话数据集(如SGD和MultiWOZ),建立了包含16个应用、31个API的大规模评估体系,显著推动了对话系统与工具学习交叉领域的研究进展。
当前挑战
DialogTool面临的挑战主要体现在两个维度:在领域问题层面,现有语言模型难以处理长程对话中的状态维护问题,例如当用户跨多轮补充参数或查询历史工具调用结果时,模型需准确跟踪工具状态(实验显示GPT-4o在40轮对话后工具执行准确率降至35.3%);在构建层面,数据转换存在API参数格式对齐的复杂性(如日期需统一为yyyy-mm-dd格式),且角色扮演改写需保持语义一致性而不改变原始对话逻辑。此外,虚拟环境的API实现需确保与真实工具调用的行为等价性,这对错误处理和状态同步机制提出了极高要求。
常用场景
经典使用场景
DialogTool数据集在多轮对话系统中评估语言模型作为语言代理的工具使用能力,特别是在状态保持的交互场景中。该数据集通过模拟真实世界中的多轮对话,涵盖了工具创建、工具利用(包括工具意识、工具选择和工具执行)以及角色一致响应等多个关键任务。其经典使用场景包括任务导向的对话系统,如餐厅预订、酒店查询和机票购买等,这些场景需要模型在多轮交互中保持对话状态并正确调用外部API。
实际应用
DialogTool在实际应用中可以用于开发智能客服、虚拟助手和任务导向的对话系统。例如,在智能客服中,模型可以通过调用外部API查询订单状态或修改预订信息;在虚拟助手中,模型可以协助用户完成复杂的多步骤任务,如旅行规划。此外,该数据集还可用于评估和优化现有对话系统的性能,特别是在处理多轮交互和状态保持方面的能力。
衍生相关工作
DialogTool的推出催生了一系列相关研究,特别是在工具学习和多轮对话系统领域。例如,基于DialogTool的研究可以探索如何优化语言模型在工具创建和选择中的表现,或者如何通过角色扮演提升对话系统的用户参与度。此外,该数据集还为开发新的评估基准和虚拟环境提供了参考,推动了语言代理在实际应用中的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

中亚主要国家的原油资源的储量、产量、消费量及其占世界比重(1985-2016)

中亚五国中,石油资源主要分布在哈萨克斯坦、乌兹别克斯坦、土库曼斯坦三个国家。根据BP世界能源统计年鉴,经整理、抽取、计算和汇总后,形成中亚主要国家(哈萨克斯坦、乌兹别克斯坦、土库曼斯坦)原油资源的储量、产量、消费量及其占世界比重的统计表。 主要指标包括: (1)储量,1991-2016年,单位:百万吨 (2)产量,1985-2016年,单位:百万吨 (3)储产比,1991-2016年,单位:百万吨 (4)消费量,1985-2016年,单位:百万吨 (5)产消差额,1985-2016年,单位:百万吨 此外,以上数据均包括中亚地区的哈萨克斯坦、乌兹别克斯坦、土库曼斯坦、三国汇总以及世界总量的情况。

地球大数据科学工程 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录