WideSearch

Hugging Face2025-08-06 更新2025-08-07 收录

下载链接：

https://huggingface.co/datasets/ByteDance-Seed/WideSearch

下载链接

链接失效反馈

官方服务：

资源简介：

WideSearch是一个评估大型语言模型（LLM）驱动的代理在广泛信息搜索任务中的能力的基准数据集。该数据集包含200个任务，涉及中英两种语言，旨在测试代理在处理需要收集大量分散、易找到的信息的任务时的表现。

创建时间：

2025-08-04

原始信息汇总

WideSearch 数据集概述

数据集简介

名称: WideSearch
用途: 评估大型语言模型（LLM）驱动代理在广泛信息搜索任务中的能力
特点: 专注于需要收集大量分散但易于查找信息的任务，强调完整性和事实保真度
语言: 中文（zh）和英文（en）
任务数量: 200个（中英文各100个）
来源: 研究论文《WideSearch: Benchmarking Agentic Broad Info-Seeking》

数据集结构

主文件: widesearch.jsonl（JSON Lines格式）
目录结构:

/ ├── widesearch.jsonl └── widesearch_gold/ ├── ws_en_001.csv ├── ws_zh_001.csv └── ...

数据实例

字段说明:
- instance_id: 任务唯一标识符，对应widesearch_gold目录中的CSV文件名
- query: 自然语言指令，详细说明任务要求、需收集的数据列和最终Markdown表格格式
- evaluation: 包含自动化评估所需的所有信息
  - unique_columns: 表格行的主键列
  - required: 必须包含的所有列名
  - eval_pipeline: 每列的评估方法定义
- language: 任务语言（en或zh）

评估标准

预处理步骤: 包括字符串标准化（norm_str）、数字提取（extract_number）等
评估指标:
- 精确匹配（exact_match）
- 数值近似（number_near）
- LLM判断（llm_judge）

引用信息

bibtex @article{wong2025widesearch, title={WideSearch: Benchmarking Agentic Broad Info-Seeking}, author={Wong, Ryan and Wang, Jiawei and Zhao, Junjie and Chen, Li and Gao, Yan and Zhang, Long and Zhou, Xuan and Wang, Zuo and Xiang, Kai and Wang, Yang and Wang, Ke}, journal={arXiv preprint arXiv:XXXX.XXXXX}, year={2025}, note={Project Page: https://github.com/xx/WideSearch} }

搜集汇总

数据集介绍

构建方式

在信息检索与智能代理研究领域，WideSearch数据集的构建遵循了严谨的科学流程。该数据集包含200项任务，其中中英文各占半数，每项任务均经过人工精心设计，模拟真实世界中的广泛信息搜集需求。构建过程中，研究团队首先定义了任务的核心要求，即强调信息的完整性与事实准确性，随后由领域专家通过详尽的网络搜索与交叉验证生成高质量的标准答案，并存储为CSV格式的基准数据。

使用方法

研究人员在使用WideSearch时，需加载JSON Lines格式的任务文件，并参照对应的基准答案目录进行模型输出验证。数据集支持自动化评估流程，用户可通过解析每个任务的评估字段，获取列预处理要求、度量指标及判断准则。典型应用包括训练或测试大语言模型代理在复杂信息整合任务中的能力，尤其适用于需高完整性与事实保真度的场景，如学术研究或工业级智能系统开发。

背景与挑战

背景概述

在人工智能领域，大规模语言模型驱动的智能体系统正逐渐成为信息检索与整合的核心工具。WideSearch数据集由字节跳动研究团队于2025年创建，旨在评估智能体在广泛信息搜索任务中的性能表现。该数据集聚焦于解决传统基准测试中忽视的操作规模与信息完整性挑战，通过200个精心设计的中英文双语言任务，推动智能体在金融分析、市场调研等实际应用场景中的发展。

当前挑战

该数据集主要应对广泛信息搜索领域的两大核心挑战：一是智能体需要从分散来源中高效整合大量浅层但广泛分布的信息，确保结果的完整性与事实准确性；二是在构建过程中需克服人工标注的规模性与一致性难题，通过专家交叉验证建立高质量标准答案，并设计多维度评估指标来量化智能体的操作效率与信息保真度。

常用场景

经典使用场景

在信息检索与智能代理研究领域，WideSearch数据集被广泛应用于评估大语言模型代理在广泛信息搜集任务中的综合表现。该数据集通过模拟真实场景中需要收集大量分散但易于获取信息的任务，如学术研究中的文献综述或市场分析中的竞品数据收集，为研究者提供了标准化的测试平台。其多语言特性与结构化评估框架使得模型能够在复杂信息环境中验证其操作规模与信息完整性的平衡能力。

解决学术问题

该数据集有效解决了传统信息检索基准在广度搜索任务评估上的局限性，突破了单一事实查找的范式。通过引入操作规模、重复性操作以及信息完整性等维度，为智能代理系统的评估建立了新的标准。其提出的事实保真度与完整度评估指标，为学术界研究多步骤信息整合与跨源验证机制提供了重要基础，推动了认知难度向操作复杂性研究范式的转变。

实际应用

在现实应用层面，WideSearch支撑着金融分析、市场调研和学术研究等领域的自动化信息处理系统开发。投资分析师可利用其评估模型收集行业关键指标的能力，招聘平台可基于此优化职位信息聚合算法，教育机构则借助其实现学术资源的智能整合。这些应用显著提升了大规模信息处理的效率与准确性，为各行业提供了可靠的信息基础设施。

数据集最近研究