Youtu-GraphRAG
收藏arXiv2025-08-27 更新2025-11-25 收录
下载链接:
https://hf-mirror.com/datasets/Youtu-Graph/AnonyRAG
下载链接
链接失效反馈官方服务:
资源简介:
Youtu-GraphRAG 数据集由腾讯优图实验室创建,旨在支持图检索增强生成(GraphRAG)框架,该框架通过将零散的知识组织成显式结构图来有效增强大型语言模型在复杂推理方面的能力。数据集的具体大小、数据量、Tokens数等信息在论文中未提及,但提到数据集的设计考虑了领域特定任务,并通过持续交互与文档内容动态地更新图模式,从而在保证模式指导的同时获得更广泛的知识覆盖。
The Youtu-GraphRAG dataset was created by Tencent YouTu Lab, aiming to support the Graph Retrieval-Augmented Generation (GraphRAG) framework. This framework effectively enhances the complex reasoning capabilities of Large Language Models (LLMs) by organizing fragmented knowledge into explicit structured graphs. Specific details such as the dataset size, data volume, and total number of Tokens are not mentioned in the associated paper. However, the dataset was designed with domain-specific tasks in mind, and dynamically updates the graph schema through continuous interaction with document contents, thereby achieving broader knowledge coverage while maintaining schema-guided guidance.
提供机构:
腾讯优图实验室
创建时间:
2025-08-27
搜集汇总
数据集介绍

构建方式
在知识图谱增强生成领域,Youtu-GraphRAG采用垂直统一的智能体范式构建数据集。该方法通过引入种子图模式界定实体类型、关系和属性类型,指导自动提取智能体进行结构化知识抽取,并基于反馈持续扩展模式以适应未知领域。利用双重感知社区检测算法融合图结构拓扑与子图语义,形成支持自上而下过滤和自底向上推理的四层知识树结构,实现细粒度事实与高层次语义的有机整合。
特点
该数据集以图模式为核心框架,具备动态演化能力,通过智能体交互实现领域自适应扩展。其知识树架构融合社区、关键词、实体关系三元组和属性四个层级,同时保留局部结构连通性与全局语义连贯性。特别设计的匿名数据集与匿名还原任务有效规避预训练语言模型的知识泄露问题,确保评估结果真实反映图检索增强生成框架的性能表现。
使用方法
使用者可通过解析图模式将复杂查询分解为并行子查询,依托四层知识树实现多路径检索。智能检索器支持实体匹配、三元组匹配、社区过滤和深度优先遍历四种策略,通过迭代推理与反思机制优化检索过程。该数据集支持开放模式与拒绝模式双轨评估,既可全面衡量系统综合能力,又能精确检验检索质量与知识泄露防护效果。
背景与挑战
背景概述
Youtu-GraphRAG数据集由腾讯优图实验室于2025年提出,旨在解决图检索增强生成技术中的复杂推理问题。该数据集聚焦于多文档知识的结构化组织,通过将碎片化信息构建为显式图结构,显著提升大语言模型在跨域多跳推理任务中的性能。其核心创新在于垂直统一的智能体范式,首次将图构建与图检索有机整合,推动图增强生成技术向高效、可扩展的方向演进,为知识密集型应用提供了新的基准。
当前挑战
该数据集主要应对两大挑战:在领域问题层面,传统图增强生成方法因孤立优化图构建或检索组件,导致领域迁移时性能显著下降,难以支撑复杂的多跳推理需求;在构建过程中,面临预训练大语言模型知识泄露导致的评估偏差问题,为此团队设计了匿名化数据集与还原任务,确保对图检索增强生成框架性能的客观衡量。
常用场景
经典使用场景
在知识图谱增强生成领域,Youtu-GraphRAG通过垂直统一的智能体范式,将碎片化文档组织为显式结构化图谱,显著提升了多跳推理任务的性能。该数据集在复杂问答场景中发挥核心作用,通过模式引导的实体关系提取和双感知社区检测,构建层次化知识树,支持自上而下的语义过滤与自下而上的推理路径追溯,为跨文档语义关联分析提供结构化基础。
解决学术问题
该数据集有效解决了传统检索增强生成方法在复杂多跳推理中的语义连贯性缺失问题,通过图谱模式约束的智能体协同机制,显著降低了领域迁移时的性能衰减。其提出的匿名化评估任务深度量化了图谱增强框架的真实性能,缓解了预训练大语言模型知识泄露对评估结果的干扰,为知识密集型推理任务的公平评估建立了新范式。
衍生相关工作
该数据集推动了HippoRAG系列工作在记忆机制与个性化PageRank算法上的演进,启发了RAPTOR等方法的递归聚类摘要技术。其匿名化评估范式被GraphRAG-Bench等基准采纳,促进了E2GraphRAG在流式图谱构建方向的优化,为后续融合神经符号推理的混合架构提供了理论支撑与实践验证。
以上内容由遇见数据集搜集并总结生成



