FamilyTool
收藏github2025-04-09 更新2025-04-10 收录
下载链接:
https://github.com/yxzwang/FamilyTool
下载链接
链接失效反馈官方服务:
资源简介:
FamilyTool: 一个多跳个性化工具使用基准测试。
FamilyTool: A multi-hop personalized tool use benchmark.
创建时间:
2025-04-09
原始信息汇总
FamilyTool数据集概述
数据集基本信息
- 名称: FamilyTool
- 类型: 多跳个性化工具使用基准测试
- 相关论文: FamilyTool: A Multi-hop Personalized Tool Use Benchmark
- 扩展基准: UnifiedToolHub
数据路径与格式
查询-答案对
- 数据位置:
datasets/$DATASET/data_goldenKG.jsonl - 数据格式: 每行包含以下字段 json [ {"role": "id", "content": "$id"}, {"role": "candidate_tools", "content": #candidate_tools}, {"role": "user", "content":f "{query}, The extra information for the query is ({golden_KG})"}, {"role": "tool_call", "content": [ $golden_answer_dict ]} ]
知识图谱(KG)
- 数据位置:
KG/familykg.txt - 数据格式: 每行包含一个三元组
处理流程
KG提取
- 脚本:
pipeline/KG_extraction.py - 参数:
--model_name: 支持的模型包括[Qwen/Qwen2.5-7B-Instruct,QwQ-32B,Llama-3.1-8B,gpt-4o,o3-mini,deepseek-chat,deepseek-reasoner]--data_path: 输入数据路径
- 输出位置:
results/KG_extraction_results/
提取指标计算与中间文件生成
- 脚本:
pipeline/KG_extraction_post_process_make_intermediate_json.py - 参数:
--data_path: KG提取步骤的输出文件--KGretrieval_type: 可选["exact","relation_retrieval"]--k: 关系检索的top k值
- 输出位置:
datasets/MTU-Bench/intermediate_jsonls/{KG_retrieval_type}/
KG增强工具使用
- 脚本:
pipeline/Tooluse_generation.py - 依赖: UnifiedToolHub代码(位于
resources/UnifiedToolHub) - 测试配置:
resources/UnifiedToolHub/test.py
搜集汇总
数据集介绍

构建方式
在个性化工具推荐领域,FamilyTool数据集通过精心设计的多跳推理框架构建而成。其核心数据来源于人工标注的查询-答案对,每条数据包含用户查询、候选工具集以及基于知识子图的黄金答案。知识图谱以三元组形式存储于独立文件中,与查询数据通过正则表达式实现精准关联,确保了数据间的逻辑连贯性。
特点
该数据集最显著的特征在于其多跳推理机制与个性化工具推荐的结合。每个查询都配备了精心筛选的候选工具集和结构化的知识子图,为研究复杂决策路径下的工具选择提供了理想实验环境。数据格式采用标准化JSONL存储,角色字段清晰划分了查询、工具调用等不同语义模块,便于机器学习模型理解任务逻辑。
使用方法
研究者可通过加载JSONL格式的查询-答案对文件开启实验,其中的golden_KG字段为模型提供了验证所需的基准信息。知识图谱文件采用三元组明文存储,支持直接解析或导入图数据库。工具调用内容以字典数组形式呈现,完整记录了多跳推理过程中的工具使用序列,为评估模型推理能力提供了结构化标准。
背景与挑战
背景概述
FamilyTool数据集由研究团队于近期推出,旨在构建一个多跳个性化工具使用的基准测试平台。该数据集聚焦于复杂查询场景下的知识推理与工具调用能力评估,核心研究问题涉及如何通过多步推理精准匹配用户需求与工具功能。作为知识图谱与自然语言处理交叉领域的创新尝试,其设计理念为智能助手、个性化推荐等应用提供了新的评估维度,推动了工具导向型对话系统的研究边界。数据集以结构化知识图谱为基础,通过标注黄金子图与工具调用序列,为模型理解用户意图与上下文关联建立了可量化的研究框架。
当前挑战
该数据集首要解决领域内多跳推理的语义鸿沟问题,即模型需在分散的知识片段间建立逻辑链条,同时平衡工具功能的精确性与个性化需求。构建过程中面临三重挑战:黄金子图标注需人工验证知识三元组的完备性,候选工具集的覆盖范围直接影响任务难度设定,而查询-答案对的生成则要求模拟真实场景中的复杂意图表达。知识图谱与工具调用日志的异构数据融合,以及评估指标对多解路径的兼容性,均为数据质量控制的关键瓶颈。
常用场景
经典使用场景
在个性化推荐系统和知识图谱领域,FamilyTool数据集以其多跳推理和个性化工具使用的特点,成为评估复杂查询处理能力的经典基准。研究者通过该数据集能够模拟真实场景中用户的多层次信息需求,尤其适用于测试系统在结合候选工具和知识图谱时的综合表现。数据集中的黄金子图结构为验证模型在信息检索和推理能力方面提供了可靠的标准。
解决学术问题
FamilyTool数据集有效解决了多跳推理中个性化工具选择的学术难题,为知识图谱与工具协同的研究提供了实验基础。通过精准标注的查询-答案对和结构化知识三元组,该数据集支持对模型跨工具、跨知识源的复杂推理能力进行量化评估,显著推进了个性化服务领域中对用户意图理解和多源信息整合的研究进程。
衍生相关工作
基于FamilyTool的基准特性,学术界衍生出ToolFormer、KG-Augmented等系列经典模型架构。这些工作深入探索了知识图谱增强的对话系统范式,其中ToolFormer通过工具使用链实现多步推理,KG-Augmented则开创了动态知识检索与工具调用的协同框架,持续推动着个性化服务技术的边界扩展。
以上内容由遇见数据集搜集并总结生成



