InfoSeek
收藏Hugging Face2025-09-07 更新2025-09-08 收录
下载链接:
https://huggingface.co/datasets/Lk123/InfoSeek
下载链接
链接失效反馈官方服务:
资源简介:
InfoSeek是一个用于深度研究任务的数据合成框架,它能够生成结构复杂的深度研究任务。通过双代理系统,该框架从大规模文本中挖掘实体和关系,并构建研究树,将这些树转化为自然语言问题,解决问题的过程需要遍历整个层次结构。
InfoSeek is a data synthesis framework for deep research tasks, capable of generating deep research tasks with complex structures. Employing a dual-agent system, this framework extracts entities and relationships from large-scale text, constructs research trees, and converts these trees into natural language questions, where the process of solving these questions requires traversing the entire hierarchical structure.
创建时间:
2025-08-29
原始信息汇总
InfoSeek数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 问答
- 标签: 深度研究、分层推理、多跳问答、合成数据、数据合成
- 语言: 英语
数据集文件
- InfoSeek.jsonl: 包含完整的InfoSeek研究树结构,共52K样本。每个样本从根节点开始,包含研究问题、对应实体和子问题的过程信息(存储在
root中),并在构建的每个步骤中扩展到中间树结构(存储在all_tree_list中)。 - InfoSeekQA.jsonl: 从InfoSeek派生的问答对集合。每个条目对应于
InfoSeek.jsonl中的最终问题(sample[root][question])及其答案实体(sample[root][entity])。 - InfoSeek-Hard-18K.jsonl: InfoSeek的一个具有挑战性的子集(18K样本),通过使用带有专门提示的LLM识别复杂深度研究,更适合进行端到端强化学习。
- Trajectory-RFT-17K.jsonl: 包含通过论文中描述的工作流程生成的17K推理轨迹,可用作监督微调(SFT)的训练数据。
框架介绍
InfoSeek是一个可扩展的数据合成框架,用于构建结构复杂的深度研究任务。它采用双代理系统递归构建研究树,通过从大规模文本中挖掘实体和关系,并模糊中间顶点以确保它们形成有效的子问题。代理随后将这些树转换为自然语言问题,其解决方案需要遍历整个层次结构。使用InfoSeek管道,构建了一个高质量、复杂度可控且内在可验证的数据集。
示例
示例1
- 问题: What is a species of bird that was named by a person employed under his father between 1818 and 1824, whose wife was a British artist, and which has three subspecies and body length is generally no more than 6 inches?
- 答案: Russet sparrow
示例2
- 问题: What is a womens football team whose first goals in the 2. Bundesliga were scored by a player born in Korogocho, who was discovered and developed by the Mathare Youth Sports Association?
- 答案: SV Werder Bremen (women)
性能
在InfoSeek上训练的模型在传统多跳基准测试中表现出强大的性能,3B模型在BrowseComp-Plus上显示出具有竞争力的结果。
引用
bibtex @misc{xia2025opendatasynthesisdeep, title={Open Data Synthesis For Deep Research}, author={Ziyi Xia and Kun Luo and Hongjin Qian and Zheng Liu}, year={2025}, eprint={2509.00375}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2509.00375}, }
搜集汇总
数据集介绍

构建方式
在深度研究任务的数据构建领域,InfoSeek采用双智能体系统递归构建研究树结构,通过大规模网页文本挖掘实体与关系,并将中间节点模糊化为有效子问题。该框架基于层次约束满足问题(HCSP)形式化方法,确保每个样本从根节点出发,逐步扩展中间树结构,最终生成覆盖完整层次遍历的自然语言问题。整个流程支持复杂度控制与内在可验证性,共合成52K高质量训练样本。
使用方法
该数据集适用于训练语言模型进行端到端强化学习与监督微调,支持复合奖励设计与轨迹级探索等高级优化策略。用户可加载JSONL格式文件,利用根节点问题与答案实体构建多跳问答任务,或通过中间树结构分析分层推理过程。实验表明,基于InfoSeek训练的3B模型在BrowseComp-Plus等基准测试中表现优异,甚至超越更大规模模型及轻量级商业API。
背景与挑战
背景概述
InfoSeek数据集由VectorSpace Lab研究团队于2025年提出,旨在解决大语言模型在深度研究任务中的复杂推理问题。该数据集将深度研究任务形式化为层次化约束满足问题(HCSPs),通过双智能体系统递归构建研究树结构,从大规模网页文本中挖掘实体关系并生成自然语言问题。其创新性在于突破了传统单约束或多跳问答的局限性,为复杂推理任务提供了超过5.2万个高质量训练样本,显著推动了知识推理与层次化推理研究的发展。
当前挑战
在领域问题层面,InfoSeek需解决深度研究中多步推理、子问题分解与证据合成的核心挑战,其问题复杂度远超传统多跳问答。构建过程中面临三大技术难点:一是如何确保中间节点模糊化后仍构成有效子问题,二是避免知识泄漏与捷径推理现象,三是维持研究树结构的层次深度与逻辑严谨性。这些挑战通过双智能体协同工作流和拒绝采样技术得以系统性解决,但数据合成过程中仍需严格控制语义一致性与结构完整性。
常用场景
经典使用场景
在深度研究任务中,InfoSeek数据集通过其层次化约束满足问题的结构化设计,为多跳问答系统提供了经典测试平台。研究者利用其包含的52K样本及其树状推理结构,训练语言模型进行复杂问题分解与多步推理,显著提升了模型在需要深层信息整合的场景中的表现。
解决学术问题
InfoSeek有效解决了传统问答数据集中存在的结构简单化与知识泄露问题,填补了深度研究任务中层次化推理验证的空白。该数据集通过合成具有可验证答案的复杂研究问题,推动了语言模型在分层约束满足、多源证据合成等核心学术问题上的突破,为评估模型深层推理能力提供了新标准。
实际应用
该数据集已应用于智能搜索引擎、学术研究辅助系统和企业知识管理平台等实际场景。通过提供高度结构化的问答对与推理轨迹,InfoSeek能够支撑需要多步逻辑推理的对话系统开发,显著增强其在医疗诊断、法律分析和科技情报挖掘等专业领域的应用效能。
数据集最近研究
最新研究方向
在深度研究任务领域,InfoSeek数据集正推动多跳问答系统向层次化约束满足问题(HCSPs)的范式转变。其通过双智能体架构构建的研究树结构,为复杂推理任务提供了可验证的中间步骤标注,显著缓解了传统数据集中存在的知识泄露和捷径推理问题。当前研究聚焦于利用该数据集训练的语言模型在BrowseComp-Plus等挑战性基准上展现出的卓越性能,特别是在强化学习与监督微调的结合策略方面。该数据集支撑的复合奖励设计和轨迹级探索方法,正成为提升模型深层推理能力的关键技术路径,为构建下一代具备复杂问题分解与综合能力的人工智能系统奠定数据基础。
以上内容由遇见数据集搜集并总结生成



