InfoSeek

github2025-09-03 更新2025-09-05 收录

下载链接：

https://github.com/VectorSpaceLab/InfoSeek

下载链接

链接失效反馈

官方服务：

资源简介：

InfoSeek是一个可扩展的数据合成框架，用于构建结构复杂的深度研究任务。它设计了一个双代理系统，通过从大规模文本中挖掘实体和关系来递归构建研究树，并模糊中间顶点以确保形成有效的子问题。然后将这些树转化为自然语言问题，其解决方案需要遍历整个层次结构。使用InfoSeek流水线，我们构建了一个高质量、复杂度可控且内在可验证的数据集。

InfoSeek is a scalable data synthesis framework for constructing structurally complex deep research tasks. It incorporates a dual-agent system that recursively builds research trees by mining entities and relations from large-scale text, and fuzzes the intermediate vertices to ensure the generation of valid subproblems. These trees are then converted into natural language problems, the solutions of which require traversing the entire hierarchical structure. Using the InfoSeek pipeline, we have constructed a high-quality, complexity-controllable and intrinsically verifiable dataset.

创建时间：

2025-08-27

原始信息汇总

InfoSeek 数据集概述

数据集简介

InfoSeek 是一个用于构建结构复杂的深度研究任务的可扩展数据合成框架。该框架设计了一个双代理系统，通过从大规模文本中挖掘实体和关系来递归构建研究树，并模糊中间顶点以确保它们形成有效的子问题。代理随后将这些树转化为自然语言问题，其解决方案需要遍历整个层次结构。使用 InfoSeek 流水线，构建了一个高质量、复杂度可控且内在可验证的数据集。

数据内容

数据集包含通过 InfoSeek 流水线构建的问题及其答案，每个问题对应一个树状结构，详细描述了实体之间的关系和声明。

示例1

问题: What is a species of bird that was named by a person employed under his father between 1818 and 1824, whose wife was a British artist, and which has three subspecies and body length is generally no more than 6 inches?
答案: Russet sparrow
树结构: 包含根节点（Russet sparrow）及其子节点（John Gould、None 等），通过声明连接（如 "was named by"、"has three subspecies"）。

示例2

问题: What is a womens football team whose first goals in the 2. Bundesliga were scored by a player born in Korogocho, who was discovered and developed by the Mathare Youth Sports Association?
答案: SV Werder Bremen (women)
树结构: 包含根节点（SV Werder Bremen (women)）及其子节点（Doreen Nabwire、Mathare Youth Sports Association 等），通过声明连接（如 "first goals scored by"、"discovered and developed by"）。

性能表现

在传统多跳基准测试中，基于 InfoSeek 训练的模型表现出强劲性能。3B 模型在 BrowseComp-Plus 上显示出竞争性结果。

许可证

代码和数据根据 Apache License, Version 2.0 发布，允许研究性和商业性使用、修改和分发，需遵循许可条款并给予适当署名。

引用

如果使用该数据集或相关工作，请考虑引用：

@misc{xia2025opendatasynthesisdeep, title={Open Data Synthesis For Deep Research}, author={Ziyi Xia and Kun Luo and Hongjin Qian and Zheng Liu}, year={2025}, eprint={2509.00375}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2509.00375}, }

搜集汇总

数据集介绍

构建方式

在深度研究任务的数据构建领域，InfoSeek采用了一种创新的双智能体框架，通过递归挖掘大规模文本中的实体与关系，构建出结构化的研究树。该框架通过模糊中间节点确保每个子问题具备有效性，随后将树状结构转化为自然语言问题，使得解答过程需遍历整个层次体系。这一流程不仅保障了数据的复杂可控性，还实现了内在可验证的高质量合成。

使用方法

该数据集适用于训练和评估深度推理模型，用户可通过Hugging Face平台直接加载数据，每条样本包含自然语言问题、答案及结构化的研究树信息。研究人员可依据树状结构验证模型推理路径的正确性，或利用其复杂性可控的特点进行分难度实验。数据集支持监督微调与强化学习训练，为深度研究任务提供端到端的解决方案。

背景与挑战

背景概述

InfoSeek数据集由VectorSpace Lab研究团队于2025年提出，旨在解决复杂深度研究任务中的数据合成难题。该数据集通过双智能体系统递归构建研究树，从大规模文本中挖掘实体与关系，并生成需要多层次推理的自然语言问题。其创新性在于实现了复杂度可控且内在可验证的数据构建框架，为知识推理与多跳问答领域提供了高质量的训练资源，显著推动了深度研究型人工智能系统的发展。

当前挑战

该数据集核心挑战在于解决深度研究任务中的多跳推理问题，要求模型具备跨多个知识层级的逻辑串联能力。构建过程中面临实体关系挖掘的准确性挑战，需确保研究树结构的逻辑一致性；同时需平衡问题复杂度与可验证性，通过顶点模糊化处理生成既具挑战性又具备明确解空间的自然语言问题。数据合成还需克服大规模文本处理中的噪声过滤与语义保真度维护等关键技术难题。

常用场景

经典使用场景

在知识推理与复杂问答系统研究中，InfoSeek数据集通过其独特的树状结构问题设计，为多跳推理任务提供了经典测试平台。研究者利用其层次化实体关系网络，训练模型进行深度语义解析，要求系统从模糊化中间节点出发，通过多步逻辑链追溯最终答案。这种结构化查询场景有效模拟了人类进行学术研究时的信息检索与整合过程，成为评估模型复杂推理能力的基准环境。

解决学术问题

该数据集显著解决了传统问答系统中存在的语义理解浅层化与推理链条断裂问题。通过构建可验证的研究树结构，它使模型能够学习实体关系的递归挖掘与组合推理，突破了单跳问答的局限性。其重要性体现在为深度研究型人工智能提供了可量化的评估框架，推动了多跳推理、知识图谱补全及语义解析等核心研究方向的发展，为构建具备深层认知能力的AI系统奠定数据基础。

实际应用

在实际应用层面，InfoSeek支撑的模型已应用于智能搜索引擎与专业知识服务平台，能够处理需要多源信息整合的复杂查询。例如在学术文献检索领域，系统可基于研究树结构自动生成跨学科知识路径；在商业智能分析中，它能帮助企业从海量数据中提取隐藏的关联规律。这些应用显著提升了信息检索的深度与精度，为金融、医疗、教育等垂直领域提供了新一代知识服务解决方案。

数据集最近研究