five

DeepWideSearch

收藏
arXiv2025-10-23 更新2025-10-25 收录
下载链接:
https://github.com/AIDC-AI/Marco-Search-Agent
下载链接
链接失效反馈
官方服务:
资源简介:
DeepWideSearch是一个用于评估信息搜索代理深度和广度能力的数据集。该数据集包含220个问题,涵盖15个不同领域,要求代理进行多跳检索路径的深度推理。数据集通过两种方法构建:Deep2Wide转换和Wide2Deep转换,并经过人类验证确保数据质量。DeepWideSearch旨在解决现实世界中同时需要深度推理和广泛信息收集的复杂任务。
提供机构:
阿里巴巴国际数字商务
创建时间:
2025-10-23
原始信息汇总

Marco-Search-Agent 数据集概述

数据集简介

Marco-Search-Agent 包含两个具有挑战性的智能体基准测试,揭示了当前AI系统在现实世界应用中的关键差距。

包含的基准测试

HSCodeComp

任务目标:从嘈杂的产品列表中预测10位协调制度(HS)编码

数据集规模:632个专家标注的产品

覆盖领域:27个HS章节,32个电子商务类别

核心挑战:分层规则包含模糊语言和隐式决策逻辑

性能对比

  • 人类表现:95.0%(10位准确率)
  • 最佳AI表现(SmolAgent + GPT-5 VLM):46.8%

DeepWideSearch

任务目标:通过生成结构化表格(实体×属性)回答复杂查询

数据集规模:220个多跳、多属性问题(英文和中文)

输出特征

  • 平均每个答案包含414个信息单元
  • 平均推理深度:4.21步

性能表现:最佳AI(WebSailor + Claude Sonnet 4)成功率仅为2.39%

数据集资源

数据集 Huggingface地址 GitHub数据路径
HSCodeComp https://huggingface.co/datasets/AIDC-AI/HSCodeComp HSCodeComp/data/test_data.jsonl
DeepWideSearch https://huggingface.co/datasets/AIDC-AI/DeepWideSearch DeepWideSearch/data/

评估方法

  • HSCodeComp:使用HSCodeComp/eval/test_llm.py评估10位HS编码预测
  • DeepWideSearch:使用DeepWideSearch/scripts/batch_eval.sh进行评估

许可证

本项目采用Apache-2.0许可证

数据来源说明

数据集基于公开可访问的数据源构建:

  • HSCodeComp使用真实电子商务平台的产品数据
  • DeepWideSearch基于BrowseComp、BrowseComp-ZH和WideSearch数据集构建
搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索智能体评估领域,现有基准难以同时衡量深度推理与广度收集能力。为填补这一关键空白,DeepWideSearch通过两种创新方法构建:Deep2Wide转换法从深度搜索基准中筛选核心实体,经由人工标注设计结构化表模式并填充验证数据;Wide2Deep转换法则通过智能体遍历实体官网生成复杂子问题,再与原始查询融合形成复合问题。两种方法均采用严格的人工验证流程,最终形成涵盖15个领域、220个问题的双语基准数据集,每个实例平均需要30-40分钟的人工标注时间以确保数据质量。
特点
该数据集最显著的特征在于同时具备深度与广度双重挑战维度,平均表格容量达414.10个信息单元,远超传统深度搜索基准。在深度维度上,识别核心实体平均需要4.21个搜索步骤,是宽搜索基准的3.4倍;在广度维度上,要求智能体在多个领域内系统收集大规模结构化信息。数据集涵盖影视、政治、金融等15个异质领域,包含中英文双语查询,并配备人工验证的真实答案表格,其组合复杂度真实反映了市场分析等实际应用场景的需求。
使用方法
使用该数据集时,研究者需按照标准评估协议进行多轮实验以抵消随机性影响。评估框架包含三个互补维度:深度评估通过列级F1和核心实体准确率衡量多跳推理能力;广度评估通过成功率和行列级F1分数检验信息收集完整性;效率评估则统计输入输出令牌量和计算成本。智能体需生成结构化表格响应复杂查询,在执行过程中需协调广泛搜索与深度验证的平衡,系统支持搜索和网页访问两种工具调用,并通过四轮独立运行取平均值的策略确保结果稳健性。
背景与挑战
背景概述
随着大语言模型在推理能力上的突破性进展,基于大模型的智能体系统在复杂信息检索任务中展现出显著潜力。然而,现有评估基准大多聚焦于单一维度的搜索能力,缺乏对深度推理与广度信息收集协同效能的系统化评测。为此,阿里巴巴国际数字商业团队于2025年提出了DeepWideSearch基准,这是首个专门针对智能体在深度与广度双重维度信息检索能力的评估体系。该基准通过深度转广度和广度转深度两种创新方法,构建了涵盖15个领域的220个高质量问题,有效填补了复杂现实场景中组合式搜索能力评估的空白。
当前挑战
该数据集核心挑战体现在双重维度:在领域问题层面,需解决智能体同时执行多跳深度推理与大规模信息收集的组合复杂性,例如在综合市场分析任务中既要广泛筛选候选实体又要深度验证每个实体的属性;在构建过程中面临标注成本高昂的难题,通过设计人工验证流程确保数据质量,同时维持真实场景中固有的组合复杂性。实验表明当前最先进智能体仅达到2.39%的平均成功率,暴露出在反思机制、知识依赖、检索充分性和上下文管理等方面的架构局限性。
常用场景
经典使用场景
在智能信息检索领域,DeepWideSearch数据集为评估智能代理在深度推理与广度信息收集的协同能力提供了标准化测试平台。该数据集通过220个跨15个领域的问题,模拟了真实场景中需要同时进行多跳深度检索和大规模信息整合的复杂任务,例如在综合市场分析中既需要识别核心实体,又需要收集其多维属性信息。
解决学术问题
该数据集有效解决了当前智能代理研究中深度推理与广度检索能力割裂的核心问题。通过构建兼具高搜索宽度(平均414.10个信息单元)和高搜索深度(平均4.21个推理步骤)的评估任务,揭示了现有代理架构在反思机制、知识依赖、检索充分性和上下文管理等方面的根本性局限,为新一代信息检索代理的架构设计指明了改进方向。
衍生相关工作
基于DeepWideSearch的评估范式,衍生出了多个改进型代理架构的研究工作。这些研究重点探索了动态反思机制以纠正错误搜索轨迹,开发了自适应检索策略来平衡搜索广度与深度,并设计了分层记忆管理方案来解决上下文溢出问题,显著提升了代理在复杂信息寻求任务中的综合表现。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作