TAPO-easy-60K, TAPO-hard-18K
收藏arXiv2025-10-08 更新2025-11-19 收录
下载链接:
https://hf-mirror.com/datasets/Goer17/TAPO
下载链接
链接失效反馈官方服务:
资源简介:
为了支持本研究,我们引入了两个新数据集:TAPO-easy-60K和TAPO-hard-18K,专门设计用于训练和评估基于事实的推理和数学计算能力。这些数据集包含约7.8万个问答对,涵盖事实推理和数学问题。数据集设计用于训练和评估知识检索和数学计算能力,旨在解决LLM在处理需要最新知识或复杂数值计算的任务时的局限性。
To support this study, we introduce two novel datasets: TAPO-easy-60K and TAPO-hard-18K, which are specifically designed for training and evaluating fact-based reasoning and mathematical computation capabilities. These datasets contain approximately 78,000 question-answer pairs covering factual reasoning and mathematical problems. They are developed to train and assess knowledge retrieval and mathematical computation abilities, with the goal of addressing the limitations of Large Language Models (LLMs) when handling tasks that require up-to-date knowledge or complex numerical calculations.
提供机构:
浙江大学, 浙江实验室, 清华大学
创建时间:
2025-10-08
搜集汇总
数据集介绍

构建方式
在强化学习与工具增强的交叉领域,TAPO-easy-60K与TAPO-hard-18K数据集通过系统化整合多源知识构建而成。TAPO-easy-60K包含约6万样本,其中数学问题融合了GSM8K与DAPO-MATH-17K的经典题型,并新增自动生成的calculator-6K计算密集型题目;事实推理部分则对自然问答数据集进行严格筛选,剔除时间敏感型问题以提升工具调用的一致性。TAPO-hard-18K的1.8万样本从DeepMath-103K精选而来,辅以人工构建的complex-8K复杂问题集,所有样本均经过三大商用模型与人工双重验证,确保同时涵盖知识检索与数值计算的双重需求。
特点
该数据集的核心特征体现在其结构化的问题设计上。数学类问题强调精确计算能力,事实推理类问题则聚焦多跳检索场景,而complex-8K子集更开创性地将两类任务深度融合。数据标注采用XML结构化格式,通过<think>、<search>等标签明确划分推理、工具调用与结果整合阶段,为强化学习提供清晰的训练信号。特别设计的类型化奖励函数能动态适配不同问题特性,例如数学类采用严格匹配机制,事实类则引入归一化编辑距离度量,有效平衡了答案准确性与语义灵活性。
使用方法
该数据集专为工具增强型语言模型的强化学习训练而设计。研究者在训练过程中可启动搜索API与Python解释器,使模型通过动态采样策略生成包含工具调用的推理轨迹。每个训练批次通过动态分组机制确保样本质量多样性,利用改进的DAPO算法计算优势函数。模型输出中的工具生成内容通过响应掩码机制隔离,保证参数更新仅基于语言模型自身生成的标记。评估阶段可通过标准化测试集衡量模型在知识检索、数学计算及综合任务上的表现,特别适合研究工具调用效率与跨领域泛化能力。
背景与挑战
背景概述
TAPO-easy-60K与TAPO-hard-18K数据集于2025年由浙江大学、浙江实验室与清华大学联合团队推出,作为工具增强策略优化研究的关键组成部分。该数据集聚焦于增强大型语言模型在知识推理与数学计算领域的综合能力,通过融合事实检索与复杂运算任务,旨在解决模型在实时信息获取与精确数值处理方面的固有局限。其构建依托强化学习框架,推动了语言模型与外部工具协同推理的技术演进,为多模态智能系统的发展提供了重要数据支撑。
当前挑战
该数据集致力于应对知识密集型任务与数学计算问题的双重挑战,包括模型在动态信息检索中的准确性不足及复杂算术运算的可靠性缺陷。构建过程中面临数据质量控制的严峻考验,需从异构源中筛选时序一致性问题并消除模糊查询干扰;同时,工具调用与模型训练的协同优化存在效率瓶颈,高频外部接口请求导致训练流程中的计算资源闲置,而小规模模型在多工具协同泛化方面表现欠佳,需进一步探索预训练与强化学习的深度融合策略。
常用场景
经典使用场景
在增强语言模型推理能力的研究领域中,TAPO数据集为工具增强策略优化提供了关键训练基础。该数据集通过融合事实推理与数学计算两大核心任务,构建了多模态工具调用的标准评估环境。研究者在训练过程中利用其结构化标注体系,能够系统性地验证模型在复杂问题求解中的工具选择能力,特别是在需要动态切换搜索引擎与代码解释器的场景下,数据集提供的78K样本为模型学习工具调用时机与推理步骤的协同机制奠定了数据基础。
衍生相关工作
基于该数据集的研究催生了工具增强学习领域的系列创新成果。SEARCH-R1框架进一步优化了检索增强的推理流程,RETOOL系统扩展了代码解释器的应用边界,而后续的DAPO-MATH等数据集则延续了其数学推理任务的构建理念。这些衍生工作共同丰富了工具增强语言模型的技术生态,推动了多模态工具调用、奖励函数设计等关键技术的持续演进,为构建更高效可靠的智能推理系统开辟了新的研究方向。
数据集最近研究
最新研究方向
在大语言模型与工具增强协同发展的前沿领域,TAPO数据集聚焦于强化学习框架下多跳推理与自适应工具调用的深度融合研究。当前热点集中于解决模型在实时知识检索与复杂数学计算中的局限性,通过引入动态策略优化机制,显著提升了搜索接口与代码解释器的协同效率。该数据集通过构建涵盖事实推理与数值运算的高质量样本,推动了工具调用范式的革新,有效抑制了奖励黑客行为导致的过度调用问题,为知识密集型任务提供了可扩展的基准平台,对促进智能体在开放环境中的认知决策能力具有里程碑意义。
相关研究论文
- 1通过浙江大学, 浙江实验室, 清华大学 · 2025年
以上内容由遇见数据集搜集并总结生成



