FamilyTool

Name: FamilyTool
Creator: 复旦大学计算机科学系，复旦大学现代语言学研究所
Published: 2025-04-09 18:42:36
License: 暂无描述

arXiv2025-04-09 更新2025-04-11 收录

下载链接：

https://github.com/yxzwang/FamilyTool

下载链接

链接失效反馈

官方服务：

资源简介：

FamilyTool是一个基于家庭知识图谱构建的多跳个性化工具使用基准数据集。该数据集由复旦大学计算机科学系和复旦大学现代语言学研究所创建，包含了多个家庭关系的样本，用于模拟真实世界中的个性化多跳工具使用场景。数据集涵盖了1到3个关系跳的查询，难度不同，可以展示不同的复杂程度。FamilyTool还包含了用于评估大型语言模型工具使用能力的KGETool评估流程。

FamilyTool is a benchmark dataset for multi-hop personalized tool use constructed based on household knowledge graphs. This dataset was developed by the Department of Computer Science and the Institute of Modern Linguistics of Fudan University. It contains multiple samples of family relationships, designed to simulate real-world personalized multi-hop tool use scenarios. The dataset covers queries with 1 to 3 relation hops, varying in difficulty to demonstrate different levels of complexity. FamilyTool also includes the KGETool evaluation pipeline for assessing the tool use capabilities of large language models.

提供机构：

复旦大学计算机科学系，复旦大学现代语言学研究所

创建时间：

2025-04-09

搜集汇总

数据集介绍

构建方式

FamilyTool数据集的构建基于家族知识图谱（KG），通过模拟个性化、多跳工具使用场景来挑战大型语言模型（LLM）。构建过程包括三个主要步骤：首先，生成家族成员及其偏好的知识图谱；其次，利用GPT-4o生成查询-答案对，确保查询充分利用KG中的信息；最后，通过GPT-4o和人工检查对数据进行质量验证，确保查询和答案的语法、合规性、参数标准化及可行性。数据集最终包含483个测试样本和102种工具，覆盖1至3跳的复杂查询。

特点

FamilyTool数据集的特点在于其多跳推理和归纳推理能力的需求。数据集通过家族知识图谱模拟真实世界中的个性化场景，要求模型在不重新训练的情况下适应未见过的用户偏好和关系。其查询难度从1跳至3跳不等，平均跳数为1.81，涵盖了从简单到复杂的推理需求。此外，数据集还引入了噪声样本，以测试模型在KG干扰下的泛化能力。

使用方法

使用FamilyTool数据集时，研究者可以通过KGETool流程评估LLM在多跳推理和归纳推理中的表现。KGETool包括两个步骤：KG提取和KG增强的工具使用。在KG提取阶段，模型生成与查询相关的子图；在工具使用阶段，模型基于提取的子图生成工具调用。这一流程特别强调模型的泛化能力，适用于动态变化的KG环境。实验表明，现有LLM在这一任务中表现不佳，凸显了进一步改进的必要性。

背景与挑战

背景概述

FamilyTool是由复旦大学计算机科学与技术学院的研究团队于2025年提出的一个创新型基准测试数据集，旨在评估大型语言模型（LLMs）在个性化工具使用场景中的多跳推理和归纳知识适应能力。该数据集基于家族知识图谱（KG）构建，模拟了真实世界中动态变化的家庭关系和个人偏好场景。其核心研究问题聚焦于解决现有工具学习基准在个性化、多跳推理和动态环境适应方面的不足，为LLM在复杂现实场景中的推理能力、适应性和可扩展性提供了重要评估标准。该数据集的推出显著推动了个性化工具学习领域的发展，并为LLMs在家庭场景下的实际应用奠定了基础。

当前挑战

FamilyTool面临的挑战主要体现在两个维度：领域问题层面，该数据集旨在解决个性化多跳工具调用参数生成的难题，要求模型能够处理1至3跳的复杂家庭关系推理（如推断母亲偏好的餐厅），并在动态知识图谱中实现零样本归纳推理（如适应新增的家庭关系）。构建过程层面，研究团队需要克服知识图谱的动态更新带来的数据一致性挑战，确保多跳查询的逻辑正确性，以及处理LLM在路径生成中的幻觉问题。此外，如何设计有效的评估指标来全面衡量模型在工具选择、参数生成和知识推理等方面的表现，也是构建过程中的关键挑战。

常用场景

经典使用场景

FamilyTool数据集在大型语言模型（LLM）工具学习领域中被广泛用于评估模型在个性化、多跳推理场景下的性能。该数据集通过模拟家庭知识图谱（KG）中的复杂关系链，如推断家族成员间的多层关联（如“母亲的偏好餐厅”）或动态新增的人际关系，成为测试模型是否能在无需重新训练的情况下适应未知用户偏好的重要基准。其典型应用包括多跳参数生成、工具调用逻辑验证等场景，为研究社区提供了衡量模型推理深度与泛化能力的标准化环境。

衍生相关工作

基于FamilyTool的KGETool评估框架催生了多项工具学习创新研究：1）多跳推理优化方法如动态子图提取技术（Greedy Search/Relation Retrieval）被提出以缓解LLM的幻觉问题；2）激发了对LLM与知识图谱协同推理的深入探索，如路径编码增强模型Sui et al. (2024)；3）推动了个性化工具学习基准的演进，后续工作如Hao et al. (2025)进一步扩展了单用户场景评估维度。这些衍生研究共同推进了复杂环境中工具学习的理论边界。

数据集最近研究