Mozilla/citation-eval-consolidated

Name: Mozilla/citation-eval-consolidated
Creator: Mozilla
Published: 2026-05-04 15:46:27
License: 暂无描述

Hugging Face2026-05-04 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/Mozilla/citation-eval-consolidated

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: uuid dtype: string - name: tool_name dtype: string - name: category dtype: string - name: difficulty dtype: string - name: user_query dtype: string - name: tool_call_name dtype: string - name: tool_call_arguments dtype: string - name: tool_result dtype: string - name: allowed_urls dtype: string - name: source_dataset dtype: string splits: - name: train num_bytes: 272416 num_examples: 298 download_size: 86663 dataset_size: 272416 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

Mozilla

搜集汇总

数据集介绍

构建方式

该数据集基于多源工具调用场景构建，通过整合不同来源的智能体交互数据，筛选出包含工具调用记录的样例。每条数据经过标准化处理，统一包含用户查询、工具调用名称、参数、执行结果及允许访问的URL范围等字段。数据按难度与类别进行分层标注，最终形成298条训练样本，以支持工具调用行为的系统化评估。

特点

数据集具备多维度的结构化特征，涵盖工具名称、类别、难度等级及来源标注等关键属性。每条样本包含完整的调用链路信息，从用户原始查询到工具调用参数及执行结果，形成闭环的评估单元。难度分层设计使得模型可以在不同复杂度场景下进行能力验证，而类别标注则支持细粒度的性能分析。

使用方法

适用于工具调用能力评估场景，可直接加载训练集进行模型微调或零样本测评。建议将工具调用名称与参数作为预测目标，结合用户查询与URL权限进行上下文推理。评估时可通过比较预测的工具调用与实际标注的差异，计算准确率与参数填充正确率等指标，特别关注不同难度与类别下的性能分布。

背景与挑战

背景概述

在大型语言模型（LLM）调用外部工具（如搜索引擎、数据库）执行复杂任务时，生成准确且可验证的引用（citation）已成为衡量其可靠性与实用性的关键指标。citation-eval-consolidated数据集由研究机构于近两年构建，旨在系统评估模型在工具增强对话场景中的引用质量。该数据集通过整合多个来源的查询-工具调用-结果三元组，聚焦于模型是否能在生成回答时正确引用所依赖的工具输出。其核心研究问题在于如何基于结构化的工具调用记录，构建一个可复现、跨场景的自动化引用评价基准。该数据集的出现填补了现有引用评估基准多集中于静态文本检索而忽视动态工具交互过程的空白，对推动检索增强生成（RAG）和工具学习领域的标准化评估具有重要意义。

当前挑战

该数据集所解决的领域核心挑战在于工具调用场景下的引用归因与可信性验证——语言模型在生成答案时可能错误引用、遗漏引用或虚构工具输出，导致用户难以追溯信息源头。此外，数据构建过程中面临多重挑战：首先，从不同来源（如Bing搜索、Arxiv论文）的异构工具调用结果中，需统一标准化为包含uuid、工具名称、调用参数及返回结果的格式，涉及跨格式对齐与语义一致性检查；其次，数据难度（difficulty字段）的合理标注依赖人工对工具交互逻辑的复杂程度判定，存在主观偏差；最后，仅298条训练样本的规模限制了模型泛化边界，且在允许引用URL范围（allowed_urls）的界定上，如何平衡测试的开放性与答案的可约束性仍是难点。

常用场景

经典使用场景

在大型语言模型与外部工具交互的评估领域，citation-eval-consolidated数据集扮演着至关重要的角色。该数据集汇聚了多种来源的评估样本，覆盖不同类别与难度的工具调用场景，旨在系统性地衡量模型在理解用户查询、准确选择工具并解析调用结果方面的能力。其经典使用场景在于为研究人员提供一个标准化、多维度的评测基准，用以对比不同模型在工具辅助任务中的表现，尤其是在需要引用外部知识或执行具体操作的情境下，该数据集能够揭示模型在复杂指令跟随与工具协同上的差异。

解决学术问题

该数据集的核心价值在于解决了学术研究中长期存在的“工具调用评估碎片化”问题。过往的研究常因缺乏统一且涵盖多领域、多难度的评估集而难以客观评判模型的进步，citation-eval-consolidated通过整合并规范化各类工具调用任务，构建了一个可复现、可比较的评估框架。它促进了研究者对模型在工具选择、参数填充、结果引用等环节的薄弱点进行深入分析，从而加速了工具增强型语言模型的理论完善与性能提升，为后续的模型优化提供了坚实的实证基础。

衍生相关工作

围绕citation-eval-consolidated数据集，衍生出多方面的经典后续工作。一方面，研究者基于该基准开发了针对工具调用表现优化的新型训练策略和模型架构，例如引入分解式推理模块或强化学习微调方法。另一方面，该数据集推动了评估指标的创新，如将调用成功率、参数匹配准确度与引用恰当性纳入综合评价体系。此外，它还催生了面向特定领域（如生物医学、金融分析）的工具调用扩展数据集，进一步拓宽了工具增强语言模型的研究边界，形成了良性迭代的学术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集