TOOLtifruti

Name: TOOLtifruti
Creator: HiTZ zentroa
Published: 2026-02-04 22:09:02
License: 暂无描述

Hugging Face2026-02-04 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/HiTZ/TOOLtifruti

下载链接

链接失效反馈

官方服务：

资源简介：

TOOLtifruti是一个专门设计用于评估大语言模型（LLM）在巴斯克语环境中是否能够识别需要工具的情况并从多个领域特定选项中选择适当工具的数据集。该数据集旨在填补巴斯克评估生态系统中缺乏标准化数据集和协议来评估代理行为，特别是端到端代理RAG设置中的工具选择和使用。TOOLtifruti包含来自五个领域的查询，每个查询都与其中一个领域（及相应工具）相关联，还包括无需任何工具即可回答的查询（无工具查询）。这些查询涵盖翻译、数学、教育和编程等多个类别。每个数据集实例包括查询、其类型（即映射到的工具/领域）、回答所需的参考上下文（创建查询的源段落）以及从该上下文中得出的相应参考答案。

提供机构：

HiTZ zentroa

创建时间：

2026-02-04

原始信息汇总

TOOLtifruti 数据集概述

数据集基本信息

数据集名称: TOOLtifruti: TOOL interacTIon FRamework for Usage Testing and Inspection
任务类别: 问答
语言: 巴斯克语 (eu)
标签: 工具调用、LLM智能体
许可协议: CC BY-SA 4.0
数据规模: 1K < n < 10K

数据集简介

该数据集旨在解决巴斯克语评估生态系统中缺乏标准化数据集和协议来评估智能体行为的问题，特别是在端到端智能体RAG设置中的工具选择和使用。TOOLtifruti是一个专门设计的数据集，用于评估LLM是否能在特定用例中识别何时需要工具，并从多个特定领域的选项中选择合适的工具。

数据内容与结构

数据集包含来自五个领域的查询，每个查询与其中一个领域（及相应工具）相关联。数据集还包括无需使用任何工具即可回答的查询（no-tool）。这些查询涵盖翻译、数学、教育和编程等多个类别。

领域划分

BOPV/EHAA
Basque Parliament
Berria Newspaper
Basque Wikipedia
No-tool queries

数据实例构成

每个数据集实例包含以下信息：

查询: 用户提出的问题
类型: 查询映射到的工具/领域
参考上下文: 回答查询所需的源段落
参考答案: 从上下文中推导出的对应答案

数据示例

类型	查询	上下文	答案
bopv	Zein da Euskal Autonomia Erkidegoko Trenbide Sarearen Lurraldearen Arloko Planak aurreikusten duen trenbide-zabaltzea?	EBAZPENA, 2016ko irailaren 27koa, Garraio Azpiegituren zuzendariarena, zeinaren bidez behin betiko onartzen baita Bilboko metropoli-trenbidearen 5. lineako Galdakao erdialdea [...]	Euskal Autonomia Erkidegoko Trenbide Sarearen Lurraldearen Arloko Planak otsailaren 27ko 41/2001 Dekretuaren bidez onartu eta otsailaren 22ko 34/2005 Dekretuaren bidez [...]
parl	Zein da EAJ/PNVren jarrera metal detektagailuen erabilerari buruzko lege proposamenaren inguruan?	[Arruabarrena Azpitarte, Mikel, (EAJ/PNV)]: [...] Laburki azalduta, ezezko botoa eman dugu, ikusi duzuen bezala, Gobernuaren iritzian oinarrituta. Izan ere, legeari [...]	EAJ/PNVk ezezko botoa eman dio EH Bilduk aurkeztutako lege-proposamenari, Eusko Jaurlaritzaren iritziarekin bat eginez. Arruabarrena Azpitarte (EAJ/PNV) arabera, metal detektagailuen erabilera jada [...]
news	Zein eragin izango du Joxerramon Bengoetxearen garaipenak EHUren norabidean?	Joxerramon Bengoetxea izango da EHUko errektoreberria, boto haztatuaren %64 lortuta. Norabide aldaketa EHU Euskal Herriko Unibertsitatean. [...]	Joxerramon Bengoetxearen garaipenak norabide aldaketa bat ekarriko du EHU Euskal Herriko Unibertsitatean. [...]
wikipedia	Zenbat liburu argitaratu ditu Julen Gabiriak?	Julen Gabiria "Connemara gure bihotzetan" liburuaren idazlea da. 1973ko urtarrilaren 19an jaioa, Galdakaon, idazle bizkaitar [...]	bi
notool friendly_chat	Kaixo, unibertsitaterako aurkezpen bat egin behar dut eta oso urduri jartzen naiz. Zein da zure aholkurik onena lasaitzeko?		Kaixo, erabat ulertzen dut — aurkezpenak oso urduri jartzen gaituzte! Hona hemen lagun zaitzaketen gauza batzuk:<br><br>1. Arnasa hartu profesionalen moduan: Erabili 4-7-8 metodoa [...]

数据集用途

该设置使工具调用评估变得直接且可复现，同时为端到端智能体RAG评估提供了一个通用基准，因为每个查询都配有一个参考工具调用和一个参考答案。

搜集汇总

数据集介绍

构建方式

在巴斯克语评估生态系统中，为填补代理行为标准化评估工具的空白，TOOLtifruti数据集应运而生。该数据集通过精心设计的流程构建，涵盖了五个特定领域：BOPV/EHAA、巴斯克议会、Berria报纸、巴斯克维基百科以及无需工具即可回答的查询。每个实例均包含查询语句、对应的工具类型、源自真实文档的参考上下文以及基于上下文生成的参考答案。这种构建方式确保了数据来源的多样性与真实性，为端到端代理检索增强生成评估提供了可靠基础。

特点

TOOLtifruti数据集的核心特点在于其专注于工具调用与选择的评估框架。数据集不仅包含需要特定领域工具处理的查询，还融入了无需工具即可直接回答的多样化问题，覆盖翻译、数学、教育及编程等类别。每个查询均与明确的工具类型关联，并配备标准化的参考上下文与答案，使得评估过程具备高度可重复性与可比性。这一设计使得该数据集成为巴斯克语环境下代理智能行为评估的基准工具。

使用方法

使用TOOLtifruti数据集时，研究人员可将其应用于大型语言模型在工具调用与选择能力上的系统性评估。数据集中的每个查询实例可作为输入，通过对比模型生成的工具调用及答案与参考标准，量化模型在端到端代理检索增强生成场景中的表现。该数据集支持跨领域比较，尤其适用于评估模型在巴斯克语复杂语境下识别工具需求、选择恰当工具并生成准确回答的综合能力。

背景与挑战

背景概述

在自然语言处理领域，巴斯克语作为欧洲少数语言之一，长期以来面临评估资源匮乏的困境，特别是在智能体行为评估方面缺乏标准化数据集与协议。为填补这一空白，研究团队于近期创建了TOOLtifruti数据集，其核心研究问题聚焦于评估大型语言模型在端到端智能体检索增强生成场景中，能否准确识别工具调用需求并选择特定领域工具。该数据集涵盖议会记录、新闻媒体、百科全书及无工具查询等多个领域，通过提供标准化查询、参考上下文及参考答案，为巴斯克语智能体系统的工具调用能力建立了可复现的评估基准，对推动低资源语言智能体技术发展具有重要影响力。

当前挑战

TOOLtifruti数据集所针对的领域问题在于评估智能体在复杂语境下的工具调用能力，其核心挑战包括模型需精准区分无需工具的开放式对话与需调用领域工具的查询，并在多个专业工具间做出准确选择。在构建过程中，研究团队面临巴斯克语多领域文本资源分散、标注一致性难以保障等挑战，例如需从议会文件、新闻档案等异构来源提取并结构化查询与上下文，同时确保无工具查询的多样性覆盖日常对话、数学推理等类别，以构建平衡且具有代表性的评估样本。

常用场景

经典使用场景

在巴斯克语自然语言处理领域，TOOLtifruti数据集为评估大型语言模型在端到端代理检索增强生成（Agentic RAG）场景中的工具调用能力提供了标准化基准。该数据集通过涵盖巴斯克议会、新闻媒体、维基百科等多个领域的查询，模拟了真实世界中的信息检索与工具选择需求。研究者利用其结构化查询与参考工具调用配对，系统性地测试模型在识别工具需求、选择适当工具以及生成准确回答方面的性能，从而推动了巴斯克语智能代理系统的开发与优化。

衍生相关工作

围绕TOOLtifruti数据集，衍生了一系列针对巴斯克语工具调用与代理评估的研究工作。这些工作包括基于其多领域查询结构的模型微调方法、跨语言工具选择迁移学习框架，以及端到端Agentic RAG系统的性能优化策略。部分研究进一步扩展了数据集的评估维度，引入了动态工具库与多轮对话场景，推动了低资源语言智能代理技术在学术与工业界的协同创新与应用落地。

数据集最近研究