WideSearch
收藏arXiv2025-08-11 更新2025-08-13 收录
下载链接:
https://huggingface.co/datasets/ByteDance-Seed/WideSearch
下载链接
链接失效反馈官方服务:
资源简介:
WideSearch数据集是一个为评估代理在大规模信息收集任务上的可靠性而设计的新基准。该数据集包含200个手动策划的问题(100个英文,100个中文),涵盖了超过15个不同的领域,并基于真实用户查询。每个任务都需要代理收集大规模的原子信息,并客观地逐一验证,然后将其组织成一个井井有条的输出。一个严格的五阶段质量控制流程确保了数据集的难度、完整性和可验证性。
The WideSearch dataset is a novel benchmark designed to evaluate the reliability of AI Agents in large-scale information collection tasks. It contains 200 manually curated questions (100 in English and 100 in Chinese), covering more than 15 distinct domains and derived from real user queries. Each task requires the agent to collect large-scale atomic information, verify each piece of information objectively one by one, and then organize it into a well-structured final output. A rigorous five-stage quality control pipeline is implemented to ensure the dataset's difficulty, completeness, and verifiability.
提供机构:
字节跳动
创建时间:
2025-08-11
原始信息汇总
WideSearch 数据集概述
数据集简介
- 目的:评估大型语言模型(LLM)驱动代理在广泛信息搜索任务中的能力。
- 特点:专注于收集大量分散但易于查找的信息,而非单一难以找到的事实。
- 任务示例:金融分析师收集行业关键指标、求职者收集符合条件的职位空缺。
- 任务数量:200个(100个英文,100个中文)。
- 研究论文:WideSearch: Benchmarking Agentic Broad Info-Seeking
- GitHub仓库:ByteDance-Seed/WideSearch
数据集结构
- 文件组成:
widesearch.jsonl:包含所有任务的JSON Lines文件。widesearch_gold/:包含每个任务的真实答案(CSV格式)。
数据实例
- 字段说明:
instance_id:任务唯一标识符,对应widesearch_gold目录中的CSV文件名。query:自然语言指令,详细说明任务要求、数据列和最终Markdown表格格式。evaluation:包含自动评估所需的所有信息。unique_columns:表格中的主键列。required:必须出现在代理生成响应中的所有列名。eval_pipeline:定义每列的评估方法。
language:任务语言(en或zh)。
真实数据
- 来源:由人类专家通过详尽的网络搜索和交叉验证创建。
- 格式:CSV文件,文件名与
instance_id对应。
引用
bibtex @misc{wong2025widesearchbenchmarkingagenticbroad, title={WideSearch: Benchmarking Agentic Broad Info-Seeking}, author={Ryan Wong and Jiawei Wang and Junjie Zhao and Li Chen and Yan Gao and Long Zhang and Xuan Zhou and Zuo Wang and Kai Xiang and Ge Zhang and Wenhao Huang and Yang Wang and Ke Wang}, year={2025}, eprint={2508.07999}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2508.07999}, }
搜集汇总
数据集介绍

构建方式
WideSearch数据集的构建采用了严格的多阶段质量控制流程,确保每个任务都具备挑战性、真实性和可验证性。数据来源于真实用户查询,涵盖15个以上多样化领域,包括金融、教育、医疗等。每个任务由领域专家手动筛选和设计,确保其符合高搜索量、时间与上下文不变性、客观可验证性等六项基本原则。通过五阶段的筛选和验证流程,包括参数知识过滤和基于难度的修剪,最终形成包含200个任务(中英文各100个)的高质量数据集。
特点
WideSearch数据集的核心特点在于其专注于大规模信息收集任务的评估,而非传统的深度推理或事实检索。每个任务要求模型从实时网络中收集、验证并组织大量原子信息,输出结构化的表格。数据集强调信息的全面性和准确性,任何单一数据点的遗漏或错误都会导致任务失败。此外,数据集的语言和领域分布均衡,确保了评估的广泛适用性。其严格的自动化评估框架结合了规则检查和语义判断,保证了评分的客观性和一致性。
使用方法
使用WideSearch数据集时,模型需根据自然语言查询和预定义的表结构,通过搜索工具从实时网络中收集信息并填充表格。评估分为三个层次:任务成功率(SR)、行级F1分数和项级F1分数。用户可通过单代理或多代理框架测试模型性能,其中多代理框架通过任务分解和并行搜索显著提升效果。数据集支持中英文任务,适用于测试模型在跨领域、大规模信息检索中的综合能力。详细的评估流程和错误分析工具帮助用户定位模型在规划、反思和证据利用等方面的不足。
背景与挑战
背景概述
WideSearch是由字节跳动Seed团队于2025年推出的基准测试数据集,旨在评估基于大型语言模型(LLM)的搜索代理在大规模信息收集任务中的性能。该数据集包含200个手工筛选的问题(中英文各100个),覆盖15个多样化领域,源自真实用户查询。其核心研究问题是解决“广域信息搜索”任务,即要求代理系统全面、准确地收集符合特定条件的大规模原子信息,并将其组织成结构化输出。该数据集的推出填补了当前代理系统评估中广域信息搜索能力的空白,对推动自动化信息检索技术的发展具有重要意义。
当前挑战
WideSearch面临的挑战主要体现在两个方面:领域问题挑战方面,现有代理系统在广域信息搜索任务中表现出严重不足,成功率极低(最佳系统仅5%),主要问题包括查询分解不完整、缺乏反思迭代机制、证据利用不当等;构建过程挑战方面,数据集的创建需克服高搜索量需求、时间与上下文不变性、客观可验证性等多重技术难点,并通过五阶段质量控制流程确保任务难度、完整性和可验证性。此外,跨语言(中英文)和跨领域的数据平衡也增加了构建复杂度。
常用场景
经典使用场景
WideSearch数据集专为评估大型语言模型(LLM)代理在广泛信息搜索任务中的性能而设计。其经典使用场景包括金融分析师需要查找符合特定收入和增长标准的公司,或求职者需要匹配职位、地点和经验水平的工作空缺。这些任务要求代理从多个来源收集大量原子信息,并将其组织成结构化的输出。数据集通过200个手工筛选的问题(中英文各100个)覆盖15个不同领域,确保任务的多样性和复杂性。
衍生相关工作
WideSearch的推出催生了一系列相关研究,特别是在多代理框架和并行搜索算法方面。例如,研究者们开始探索如何通过多代理协作(如并行搜索和交叉验证)来提升信息搜索的全面性和准确性。此外,该数据集还启发了对代理反思机制和动态调整策略的深入研究,以解决现有系统在复杂任务分解和证据利用中的不足。这些衍生工作进一步推动了自动化搜索代理技术的发展。
数据集最近研究
最新研究方向
随着大规模语言模型(LLMs)的快速发展,自动化搜索代理在信息检索领域的应用日益广泛。WideSearch作为首个专注于评估代理在大规模信息收集任务中可靠性和完整性的基准,揭示了当前搜索代理在广域信息检索方面的显著不足。前沿研究主要集中在多智能体框架的优化上,通过并行搜索和交叉验证模拟人类协作过程,以提升信息检索的全面性和准确性。此外,研究还关注代理的高级认知能力,如任务分解、动态调整策略以及证据的正确利用,这些能力对于提升代理在复杂、大规模信息检索任务中的表现至关重要。WideSearch的推出为未来搜索代理的发展提供了明确的方向,强调了在信息检索领域实现高效、可靠自动化的重要性。
相关研究论文
- 1WideSearch: Benchmarking Agentic Broad Info-Seeking字节跳动 · 2025年
以上内容由遇见数据集搜集并总结生成



