T1

Name: T1
Creator: Capital One
Published: 2025-05-23 01:54:32
License: 暂无描述

arXiv2025-05-23 更新2025-05-28 收录

下载链接：

http://arxiv.org/abs/2505.16986v1

下载链接

链接失效反馈

官方服务：

资源简介：

T1数据集是Capital One研究团队创建的，旨在评估大型语言模型（LLM）在多轮对话中进行工具使用和复杂规划任务的能力。数据集包含了13.5k个对话，覆盖了九个不同的领域，包括航班、酒店、餐厅、景点等，模拟了真实世界中的多轮对话场景。数据集的设计使得LLM能够进行工具调用、参数提取、信息寻求等任务，并支持动态规划，如决定是否重新计算或复用缓存结果。T1数据集的创建过程包括从维基百科收集实体和元数据，通过人工标注和知识库生成对话模板，并进行数据标注和质量保证。该数据集对于研究多轮对话中的工具使用和规划任务具有重要意义，并为评估开源语言模型性能提供了基准。

The T1 Dataset was created by the Capital One Research team, aiming to evaluate the capabilities of Large Language Models (LLMs) in tool usage and complex planning tasks during multi-turn conversations. It consists of 13.5k conversations spanning nine distinct domains including flights, hotels, restaurants, attractions, etc., simulating real-world multi-turn dialogue scenarios. The dataset is designed to enable LLMs to perform tasks such as tool invocation, parameter extraction, information seeking, and support dynamic planning, such as deciding whether to recalculate or reuse cached results. The development of the T1 Dataset involves collecting entities and metadata from Wikipedia, generating dialogue templates via manual annotation and knowledge bases, followed by data annotation and quality assurance. This dataset holds significant importance for research on tool usage and planning tasks in multi-turn conversations, and provides a benchmark for evaluating the performance of open-source language models.

提供机构：

Capital One

创建时间：

2025-05-23

搜集汇总

数据集介绍

构建方式

T1数据集的构建采用了多阶段流程，首先通过人工收集维基百科实体数据构建知识库，涵盖航班、酒店、餐厅和景点四大领域。研究人员定义了包含106个关键属性的本体结构，并采用Llama-3.3 70B Instruct模型生成13.5k个对话模板。为确保数据质量，五名具有计算机科学硕士背景的标注员进行双重校验，通过程序化填充占位符并执行代码验证，最终形成包含9个领域（4单领域+5跨领域）的对话数据。

使用方法

使用T1数据集时需遵循工具调用协议：首先解析用户意图并提取必要参数，通过预定义的Python工具函数（如search_flights）执行操作。关键步骤包括缓存管理（save_to_cache/get_results_from_cache）和动态重规划决策。评估时需关注工具调用准确率、参数匹配F1值（标准化至0-1范围）和代码执行成功率三大指标，其中跨领域任务的基准测试要求智能体在11.3轮对话中保持83%以上的缓存命中率。

背景与挑战

背景概述

T1数据集由Capital One的研究团队于2025年推出，旨在解决大语言模型（LLMs）在多轮对话中工具调用依赖关系管理的核心问题。该数据集专注于跨九大领域的工具导向型对话，包含13.5k条多轮对话，支持动态重规划和缓存机制，为评估开源语言模型在复杂任务中的规划能力提供了标准化基准。其创新性体现在对跨域工具依赖关系的建模，推动了对话式AI在旅游规划等实际场景中的应用发展。

当前挑战

领域挑战在于解决多轮对话中工具调用的顺序依赖问题，如航班与酒店查询的时序约束。构建挑战包括：1) 跨领域知识库的语义对齐，需协调航班、酒店等异构数据；2) 对话模板的真实性保障，要求人工标注与AI生成的协同验证；3) 缓存机制的动态集成，需平衡结果复用与实时计算的矛盾。此外，评估框架需解决工具调用准确性与参数提取精度的多维度度量难题。

常用场景

经典使用场景

在自然语言处理领域，T1数据集被广泛应用于评估大型语言模型（LLMs）在多轮对话和工具调用规划任务中的表现。该数据集通过模拟复杂的多轮对话场景，涵盖了航班、酒店、餐厅和景点等多个领域，为研究者提供了一个标准化的测试平台。特别是在需要跨领域工具调用和依赖管理的任务中，T1数据集能够有效评估模型的规划和推理能力。

解决学术问题

T1数据集解决了多轮对话中工具调用规划的学术研究问题，尤其是在跨领域任务中模型如何有效管理和协调工具依赖关系。通过引入缓存机制和动态重新规划功能，该数据集为研究者在评估模型长期上下文理解、工具选择和执行顺序等方面提供了重要支持。其意义在于填补了现有数据集在复杂多轮对话评估方面的空白，推动了智能代理系统的发展。

实际应用

在实际应用中，T1数据集可用于开发智能旅行助手系统，帮助用户规划复杂的多目的地行程。例如，系统可以同时处理航班预订、酒店选择和餐厅推荐等任务，并根据用户反馈动态调整计划。此外，该数据集还可用于优化客服机器人，提升其在多轮对话中理解和执行复杂指令的能力。

数据集最近研究