Ko-WideSearch

github2026-06-29 更新2026-07-01 收录

下载链接：

https://github.com/minstar/Ko-widesearch

下载链接

链接失效反馈

官方服务：

资源简介：

Ko-WideSearch是一个韩语广度搜索基准测试数据集，用于网络代理进行穷举集合枚举。它包含228个黄金表、14,560个属性单元格、16个类别和190个实体，通过Item-F1、Column-F1和Row-F1等指标进行评估，旨在衡量网络代理在列表所有集合成员并填充每个项目属性表时的广度搜索能力。

创建时间：

2026-06-20

原始信息汇总

数据集概述

Ko-WideSearch 是一个用于评估网页代理（web agents）广度搜索能力的韩语基准测试（benchmark），专注于穷尽式集合枚举（exhaustive set enumeration）。不同于传统衡量“深度”（通过一系列约束找到单一答案）的基准，Ko-WideSearch 衡量“广度”：要求代理列出封闭集合（如电视剧季、王朝、联赛、行政区、选举）中的每一个成员，并填充每个成员的属性表格。评估指标包括 Item-F1、Column-F1 和 Row-F1。

数据集规模

228 个黄金标准表格
14,560 个属性单元格
16 个类别
190 个实体
12 个网页代理参与评估

主要发现

集合优于行：所有代理在识别成员（Item-F1 最高 92.8）方面的表现远优于填充完整行（Row-F1 最高 53.7），性能损失主要出现在单元格级别。
难度越高，得分越低：随着表格宽度和二维复合键的增加，Row-F1 从“简单”到“中等”再到“困难”单调下降。
更多搜索不等于更好：搜索最密集的代理得分最低，努力并不能带来完整性。
投入不等于完整性：前沿模型（Frontier）成本约为最佳开源模型的 10 倍，仅换来 +9 的 Row-F1 提升。
韩语专属模型未缩小差距：A.X-4.0、Solar-Open-2 和 K-EXAONE-236B 的表现均处于或低于开源模型基线。
查找 > 格式化：自由文本和枚举类型单元格失败率最高；日期和名称类单元格表现最佳。

分析要点

性能差距来源：按单元格类型划分的 Column-F1 显示，日期（58）、名称（56）、数字（55）、枚举（51）、自由文本（49）——瓶颈在于查找和规范化数值，而非格式化。
成员识别均衡：Item 的精确率与召回率大致相当（如 GPT-5.5 为 P85/R86），代理既不会系统性幻觉，也不会遗漏成员，损失完全在单元格级别（Row 的 P≈R≈25-37）。
大集合不是问题：集合大小对 Row-F1 影响不大（在集合大小维度上的合并 Row-F1 分别为 33.8 / 30.7 / 36.9）。
差距普遍存在：在采样充分的类别中，合并 Row-F1 集中在 0.28–0.49；体育类（最大类别，n=80）为 0.31，处于中等水平。
错误具有实质性：在经归一化感知的评判器处理了音译/粒度变体后，剩余的单元格错误涉及错误的实体、错误的地区、错误的值，而非格式化噪声。
成本：每个任务，前沿模型约 $0.82–0.87，而 DeepSeek-V4-Pro 为 $0.23（帕累托最优值，Row-F1 为 45.0）。

发布与访问

代码（流水线和评分器）采用 MIT 许可，已开源。
黄金评估数据受限制（gated）：不公开发布于互联网，以避免实时网页代理搜索并复制答案。研究人员需根据论文中的流程提出请求。

搜集汇总

数据集介绍

构建方式

Ko-WideSearch是一个专为网页智能体设计的韩语广度搜索基准，旨在衡量其穷举式集合枚举能力。该数据集通过精心构建228个黄金表格，涵盖电视季、王朝、联盟、行政区、选举等16个类别，共涉及190个实体和14,560个属性单元格。每个表格要求智能体列出封闭集合中的所有成员，并填写每个成员的属性表。构建过程严格遵循穷举原则，确保每个集合的完整性，并通过Item-F1、Column-F1和Row-F1三种粒度进行评分，分别评估成员识别、列属性填充和完整行恢复的能力。

特点

该数据集的核心特点在于聚焦广度搜索，而非传统深度搜索。实验表明，智能体在成员识别上表现优异（最佳Item-F1达92.8），但完整行恢复能力显著下降（最佳Row-F1仅53.7），瓶颈出现在单元格级别。难度等级（Easy、Medium、Hard）通过增加表格宽度和二维复合键单调降低Row-F1分数。有趣的是，搜索次数与性能不成正比，高成本前沿模型仅带来微弱的Row-F1提升。此外，韩语专用模型未能缩小差距，所有模型均在开放权重基线附近表现；错误主要源自实体查找和数值归一化，而非格式问题。

使用方法

数据集的使用方法遵循严格的评价流程。首先，研究者需通过论文中描述的请求流程获取门控的黄金评估数据，确保实时网络智能体无法直接搜索答案。然后，使用开放源代码的流水线和评分器对智能体进行测试。评估时，智能体需在给定类别和集合描述后，通过网络搜索穷举所有成员并填充属性表。最终，通过Item-F1、Column-F1和Row-F1三个指标综合评分，其中Cell-F1按日期、名称、数字、枚举、自由文本等类型细分，以精确定位性能瓶颈。

背景与挑战

背景概述

在人工智能与信息检索领域，现有网页智能体基准测试多聚焦于深度搜索，即沿着单一路径挖掘隐藏信息，然而现实世界中的许多任务要求全面性与完备性，例如罗列某个集合的所有成员并填充其属性明细。Ko-WideSearch（韩国广度搜索基准）于2026年由Upstage AI的Minbyul Jeong等人创建，旨在填补这一评估空白。该基准通过228个黄金表格、14560个属性单元格，覆盖16个类别和190个实体，系统性衡量智能体在封闭集合枚举中的广度能力。其核心研究问题在于：现有智能体在需要穷举而非单点求解的场景下表现如何？Ko-WideSearch的出现推动了网页智能体从深度推理向广度遍历的认知转型，对评估智能体的真实世界普适性具有里程碑式的意义。

当前挑战

Ko-WideSearch所面对的挑战来自两个层面。首先，在领域问题层面，现有网页智能体在广度枚举任务中表现显著失衡，比如所有智能体在恢复集合成员（Item-F1最高92.8）上远优于补全完整行（Row-F1最高53.7），且行级性能随表格宽度与二维组合键的难度增加而单调下降，揭示了智能体在属性级别的综合填充能力存在根本性瓶颈。构建过程中，研究者面临关键挑战：如何确保黄金评估数据不被公开网络爬取以避免测试污染，因此采取了按需提供而非公开上传的控流方式；同时需设计一套兼顾成员查全与属性精确性的评分体系，最终采用Item-F1、Column-F1与Row-F1三维指标来精确刻画性能损失来源。此外，构建涵盖韩国特色实体（如朝鲜王朝、K联赛）的多样化分类数据集也增加了数据采集与标注的复杂度。

常用场景

经典使用场景

Ko-WideSearch作为首个专注广度搜索的韩语网络智能体基准测试，其最经典的使用场景是评估智能体在封闭集合中穷举所有成员的能力。该数据集包含228个黄金表格、14,560个属性单元格，覆盖电视季、王朝、联盟、行政区域、选举等16个范畴，要求智能体从网络环境中完整提取每个集合的全部实体及其属性信息。不同于传统深度搜索基准测试对单一答案的追踪，Ko-WideSearch通过项目F1、列F1和行F1的三重评分体系，精确衡量智能体在枚举完整性上的表现，为网络智能体的广度搜索能力提供了可量化的评估范式。

解决学术问题

Ko-WideSearch着力解决了现有网络智能体基准测试中广度搜索能力评估缺失的关键问题。研究表明，几乎所有智能体在恢复集合成员方面的表现（最佳项目F1为92.8）远优于完整行恢复（最佳行F1仅为53.7），揭示了广度搜索中属性级信息填充的瓶颈。该数据集通过设计易中难三级难度梯度、复合键等控制变量，系统揭示了搜索轮次与完整性之间不存在简单正相关关系的反直觉结论，为智能体在信息寻求过程中的策略优化提供了理论依据。这些发现深刻影响了人机交互与信息检索领域对智能体能力维度的重新定义。

衍生相关工作

Ko-WideSearch的发布催生了一系列衍生研究工作。其基于单元格类型的错误分析（日期列F1为58、名称列56、数字列55、枚举列51、自由文本列49）直接引出了针对特定属性类型的优化方法研究，促使学者开发更鲁棒的归一化判断模块。该基准测试中发现的韩语专用模型并未显著缩小性能差距的结论，推动了多语言智能体能力迁移研究。此外，其“瀑布式搜索成本高但收益有限”的发现，催生了关于智能体搜索策略规划与信息覆盖效率权衡的学术讨论，深化了网络智能体领域对“广撒网”式底层行为本质的理解。

以上内容由遇见数据集搜集并总结生成