InfoSeek

Hugging Face2025-09-07 更新2025-09-08 收录

下载链接：

https://huggingface.co/datasets/Lk123/InfoSeek

下载链接

链接失效反馈

官方服务：

资源简介：

InfoSeek是一个用于深度研究任务的数据合成框架，它能够生成结构复杂的深度研究任务。通过双代理系统，该框架从大规模文本中挖掘实体和关系，并构建研究树，将这些树转化为自然语言问题，解决问题的过程需要遍历整个层次结构。

InfoSeek is a data synthesis framework for deep research tasks, capable of generating deep research tasks with complex structures. Employing a dual-agent system, this framework extracts entities and relationships from large-scale text, constructs research trees, and converts these trees into natural language questions, where the process of solving these questions requires traversing the entire hierarchical structure.

创建时间：

2025-08-29

原始信息汇总

InfoSeek数据集概述

基本信息

许可证: Apache-2.0
任务类别: 问答
标签: 深度研究、分层推理、多跳问答、合成数据、数据合成
语言: 英语

数据集文件

InfoSeek.jsonl: 包含完整的InfoSeek研究树结构，共52K样本。每个样本从根节点开始，包含研究问题、对应实体和子问题的过程信息（存储在root中），并在构建的每个步骤中扩展到中间树结构（存储在all_tree_list中）。
InfoSeekQA.jsonl: 从InfoSeek派生的问答对集合。每个条目对应于InfoSeek.jsonl中的最终问题（sample[root][question]）及其答案实体（sample[root][entity]）。
InfoSeek-Hard-18K.jsonl: InfoSeek的一个具有挑战性的子集（18K样本），通过使用带有专门提示的LLM识别复杂深度研究，更适合进行端到端强化学习。
Trajectory-RFT-17K.jsonl: 包含通过论文中描述的工作流程生成的17K推理轨迹，可用作监督微调（SFT）的训练数据。

框架介绍

InfoSeek是一个可扩展的数据合成框架，用于构建结构复杂的深度研究任务。它采用双代理系统递归构建研究树，通过从大规模文本中挖掘实体和关系，并模糊中间顶点以确保它们形成有效的子问题。代理随后将这些树转换为自然语言问题，其解决方案需要遍历整个层次结构。使用InfoSeek管道，构建了一个高质量、复杂度可控且内在可验证的数据集。

示例

示例1

问题: What is a species of bird that was named by a person employed under his father between 1818 and 1824, whose wife was a British artist, and which has three subspecies and body length is generally no more than 6 inches?
答案: Russet sparrow

示例2

问题: What is a womens football team whose first goals in the 2. Bundesliga were scored by a player born in Korogocho, who was discovered and developed by the Mathare Youth Sports Association?
答案: SV Werder Bremen (women)

性能

在InfoSeek上训练的模型在传统多跳基准测试中表现出强大的性能，3B模型在BrowseComp-Plus上显示出具有竞争力的结果。

引用

bibtex @misc{xia2025opendatasynthesisdeep, title={Open Data Synthesis For Deep Research}, author={Ziyi Xia and Kun Luo and Hongjin Qian and Zheng Liu}, year={2025}, eprint={2509.00375}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2509.00375}, }

搜集汇总

数据集介绍

构建方式

在深度研究任务的数据构建领域，InfoSeek采用双智能体系统递归构建研究树结构，通过大规模网页文本挖掘实体与关系，并将中间节点模糊化为有效子问题。该框架基于层次约束满足问题（HCSP）形式化方法，确保每个样本从根节点出发，逐步扩展中间树结构，最终生成覆盖完整层次遍历的自然语言问题。整个流程支持复杂度控制与内在可验证性，共合成52K高质量训练样本。

使用方法

该数据集适用于训练语言模型进行端到端强化学习与监督微调，支持复合奖励设计与轨迹级探索等高级优化策略。用户可加载JSONL格式文件，利用根节点问题与答案实体构建多跳问答任务，或通过中间树结构分析分层推理过程。实验表明，基于InfoSeek训练的3B模型在BrowseComp-Plus等基准测试中表现优异，甚至超越更大规模模型及轻量级商业API。

背景与挑战

背景概述

InfoSeek数据集由VectorSpace Lab研究团队于2025年提出，旨在解决大语言模型在深度研究任务中的复杂推理问题。该数据集将深度研究任务形式化为层次化约束满足问题（HCSPs），通过双智能体系统递归构建研究树结构，从大规模网页文本中挖掘实体关系并生成自然语言问题。其创新性在于突破了传统单约束或多跳问答的局限性，为复杂推理任务提供了超过5.2万个高质量训练样本，显著推动了知识推理与层次化推理研究的发展。

当前挑战

在领域问题层面，InfoSeek需解决深度研究中多步推理、子问题分解与证据合成的核心挑战，其问题复杂度远超传统多跳问答。构建过程中面临三大技术难点：一是如何确保中间节点模糊化后仍构成有效子问题，二是避免知识泄漏与捷径推理现象，三是维持研究树结构的层次深度与逻辑严谨性。这些挑战通过双智能体协同工作流和拒绝采样技术得以系统性解决，但数据合成过程中仍需严格控制语义一致性与结构完整性。

常用场景

经典使用场景

在深度研究任务中，InfoSeek数据集通过其层次化约束满足问题的结构化设计，为多跳问答系统提供了经典测试平台。研究者利用其包含的52K样本及其树状推理结构，训练语言模型进行复杂问题分解与多步推理，显著提升了模型在需要深层信息整合的场景中的表现。

解决学术问题

InfoSeek有效解决了传统问答数据集中存在的结构简单化与知识泄露问题，填补了深度研究任务中层次化推理验证的空白。该数据集通过合成具有可验证答案的复杂研究问题，推动了语言模型在分层约束满足、多源证据合成等核心学术问题上的突破，为评估模型深层推理能力提供了新标准。

实际应用

该数据集已应用于智能搜索引擎、学术研究辅助系统和企业知识管理平台等实际场景。通过提供高度结构化的问答对与推理轨迹，InfoSeek能够支撑需要多步逻辑推理的对话系统开发，显著增强其在医疗诊断、法律分析和科技情报挖掘等专业领域的应用效能。

数据集最近研究