ORBIT
收藏arXiv2026-04-02 更新2026-04-03 收录
下载链接:
https://huggingface.co/orbit-ai
下载链接
链接失效反馈官方服务:
资源简介:
ORBIT是由滑铁卢大学团队开发的开放网络推理数据集,包含2万条需4-5步推理的复杂查询-答案对,覆盖15个领域(如科技、医学、影视等)。该数据集通过四阶段自动化框架构建:种子创建(基于维基百科分类)、问答生成(DeepSeek-V3.1模型)、自验证和外部验证(Qwen3-4B与GPT-OSS-120B双重审核),最终确保答案可通过网络搜索验证。其创新性在于零预置条件、低成本生成,专为训练小型搜索智能体(如4B参数模型)解决复杂多跳检索问题而设计,在维基百科QA任务中表现优于同类基准9%准确率。
ORBIT is an open web reasoning dataset developed by the team from the University of Waterloo. It contains 20,000 complex query-answer pairs requiring 4 to 5 steps of reasoning, covering 15 domains such as technology, medicine, film and television, and others. This dataset is constructed via a four-stage automated framework: seed creation (based on Wikipedia categories), question-answer generation (using the DeepSeek-V3.1 model), self-verification and external verification (dual audit by Qwen3-4B and GPT-OSS-120B), which ultimately ensures that all answers can be verified through web searches. Its innovative features include zero preconditions and low-cost generation, and it is specifically designed for training small-scale search AI agents (e.g., 4B-parameter models) to solve complex multi-hop retrieval problems. It outperforms comparable benchmarks by 9% in accuracy on the Wikipedia QA task.
提供机构:
滑铁卢大学·David R. Cheriton计算机科学学院
创建时间:
2026-04-02
搜集汇总
数据集介绍

构建方式
在深度搜索任务中,构建高质量的训练数据集面临人工标注成本高昂与先决条件繁琐的双重挑战。ORBIT数据集采用一种经济高效的模块化框架,通过四个阶段自动生成可验证的复杂查询-答案对:首先,从15个广泛领域扩展维基百科类别,利用页面标题作为种子以确保覆盖范围;其次,基于种子使用具备搜索能力的DeepSeek-V3.1生成需要多步推理的反向问题与简短可验证答案;随后,通过同一模型进行自我验证,评估答案是否满足问题中的所有原子事实并提供引用来源;最后,采用级联的LLM法官结合抓取的网页上下文进行外部验证,确保数据的准确性与可靠性。
特点
ORBIT数据集以其规模与复杂性在搜索智能体训练数据中脱颖而出。该数据集包含超过20,000个推理密集型查询-答案对,平均每个问题需要4至5个推理步骤,跨越科学、医学、历史等15个不同领域,确保了内容的多样性与广度。其问题设计为长篇叙事风格,答案则简短且可验证,要求模型进行多跳信息检索与综合推理。与现有数据集相比,ORBIT不仅规模更大,而且完全避免了知识图谱构建或实体链接等繁琐先决条件,其验证过程同时涵盖维基百科与开放网络,为训练小型高效搜索智能体提供了高质量、高难度的监督信号。
使用方法
ORBIT数据集主要用于训练和评估集成语言模型与网络搜索的搜索智能体。研究人员可以将其与NQ、HotpotQA等单跳或多跳问答数据集以适当比例混合,作为强化学习(如GRPO)的训练数据,以提升模型在复杂、多步检索与推理任务上的性能。在具体应用中,基于ORBIT训练的智能体(如ORBIT-4B)能够处理需要分解复杂查询、进行多次检索并迭代规划搜索路径的深度研究问题。评估时,可在维基百科问答基准(如NQ、HotpotQA、MuSiQue等)上测试模型的精确匹配准确率,以衡量其信息寻求与推理能力。数据集及框架已开源,便于社区复现与进一步研究。
背景与挑战
背景概述
随着语言模型与网络搜索技术的深度融合,面向复杂查询的深度搜索代理已成为人工智能领域的前沿研究方向。在这一背景下,由滑铁卢大学David R. Cheriton计算机科学学院的Nandan Thakur、Zijian Chen、Xueguang Ma和Jimmy Lin等研究人员于2026年提出的ORBIT数据集应运而生。该数据集旨在解决深度搜索任务中高质量训练数据稀缺的核心问题,其核心研究聚焦于如何在不依赖昂贵人工标注或付费API服务的前提下,大规模生成具备可验证答案的复杂推理查询。ORBIT的构建标志着在资源受限环境下合成数据生成技术的重要突破,为训练高效能、小规模搜索代理模型提供了关键的数据基础,对推动开放、可复现的深度搜索研究具有显著的促进作用。
当前挑战
ORBIT数据集致力于解决深度搜索代理训练中的核心挑战,即如何为需要多步检索与复杂推理的查询提供高质量、可扩展的训练数据。其构建过程面临多重技术难题:首先,在领域问题层面,传统数据集如NQ或HotpotQA的查询通常较为简单,缺乏对多跳推理能力的充分训练;而现有复杂查询数据集则普遍受限于规模、依赖知识图谱等繁琐前提,或涉及高昂的人工标注成本。其次,在构建过程中,研究团队需设计一个在严格预算约束下仍能确保数据质量的全自动框架。这具体涉及如何通过模块化的种子创建、问答对生成以及双重验证(自验证与外部验证)流程,在无需付费API的情况下,跨15个领域生成并验证多达2万条需要4至5步推理的复杂查询,并确保答案的精确性与证据的可追溯性。
常用场景
经典使用场景
在深度搜索与检索增强生成的研究领域,ORBIT数据集为训练高效能搜索智能体提供了关键支撑。该数据集通过其四阶段生成框架,构建了包含两万条推理密集型查询-答案对的大规模资源,每条查询平均需要四到五个推理步骤,跨越维基百科与开放网络等多元信息源。其经典应用场景在于,研究人员利用ORBIT对参数量低于40亿的大型语言模型进行强化学习微调,例如基于Qwen3-4B模型结合GRPO算法,训练出能够执行多跳检索与复杂推理的搜索智能体。这些智能体在回答需要分解、多步检索与信息整合的深度研究问题时,展现出超越传统单跳数据训练模型的性能,尤其在维基百科问答基准测试中表现卓越。
解决学术问题
ORBIT数据集主要解决了深度搜索任务中高质量训练数据稀缺的核心学术难题。传统数据集如NQ或HotpotQA的查询通常较为简单,仅需一到两次检索即可回答,难以训练模型应对需要多步推理与跨源验证的复杂查询。而人工标注此类查询成本高昂且难以验证。ORBIT通过全自动、低成本的合成数据生成框架,在不依赖付费API或知识图谱等先决条件的情况下,生成了大规模、高复杂性且经过严格内部与外部验证的查询-答案对。这为学术界提供了可扩展、可复现的数据解决方案,显著降低了研究门槛,使得在有限预算下探索与改进搜索智能体的多跳推理能力成为可能,推动了开放领域深度搜索技术的发展。
衍生相关工作
ORBIT数据集的提出,激发并影响了后续一系列关于高效训练搜索智能体与合成数据生成的研究工作。其核心贡献在于证明了在严格预算约束下,无需昂贵标注或复杂先决条件,也能生成高质量深度搜索训练数据的可行性。这一理念为后续研究提供了重要范式。相关工作在此基础上探索了不同的数据合成路径,例如,InfoSeek通过实体链接与混淆技术构建数据集;WebShaper利用超链接结构与形式化引导进行数据合成;InForage则结合人工标注与模型扩展来生成训练样本。这些工作与ORBIT共同构成了当前利用合成数据训练搜索智能体的主要技术脉络,它们相互借鉴验证方法、复杂度控制与领域覆盖策略,持续推动着开放、可扩展的深度搜索训练数据生态的发展。
以上内容由遇见数据集搜集并总结生成



