Ko-AgentBench

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/huggingface-KREW/Ko-AgentBench

下载链接

链接失效反馈

官方服务：

资源简介：

Ko-AgentBench 是一个用于评估人工智能代理在韩国语言环境中表现的数据集。数据集分为七个级别（L1 到 L7），每个级别针对代理的不同能力，例如基本工具调用、工具选择、顺序和并行工具推理、错误处理、高效工具利用和长期上下文推理。数据集的功能包括 18 个韩国特定 API 和基于现实生活情况的场景。数据集用韩语和英语描述，文件包括使用 Hugging Face 数据集库在 Python 中加载数据集和使用数据集的说明。

Ko-AgentBench is a dataset designed to evaluate the performance of AI Agents in the Korean language environment. The dataset is divided into seven levels (L1 to L7), with each level targeting distinct capabilities of AI Agents, including basic tool invocation, tool selection, sequential and parallel tool reasoning, error handling, efficient tool utilization, and long-term contextual reasoning. Its features encompass 18 Korea-specific APIs and scenarios based on real-life situations. Descriptions of the dataset are available in both Korean and English, and the accompanying documentation provides instructions for loading and utilizing the dataset via the Hugging Face Datasets library in Python.

创建时间：

2025-10-28

原始信息汇总

Ko-AgentBench 数据集概述

基本信息

语言：韩语
许可证：Apache-2.0
任务类别：问答
标签：智能体、基准测试、工具使用、韩语

数据集配置

配置名称：default
数据文件分割：
- L1分割：data/L1-*
- L2分割：data/L2-*
- L3分割：data/L3-*
- L4分割：data/L4-*
- L5分割：data/L5-*
- L6分割：data/L6-*
- L7分割：data/L7-*

数据集特征

特征字段：
- instruction：字符串类型
- tools：字符串列表
数据集统计：
- 下载大小：20447字节
- 数据集大小：13783字节
- 各分割统计：
  - L1：1551字节，11个示例
  - L2：4655字节，30个示例
  - L3：1433字节，10个示例
  - L4：1567字节，10个示例
  - L5：2091字节，20个示例
  - L6：1184字节，15个示例
  - L7：1302字节，10个示例

核心特点

阶段性任务设计：将智能体能力分为7个阶段进行立体分析
18种韩式API使用：基于韩国实际使用环境的API构建现实问题解决场景
缓存基础重复评估及强固性测试：解决现有基准测试的固有问题
阶段性独特精确指标：分阶段评估问题解决过程

任务分类阶段

单轮对话

L1（单一工具调用）

目标：验证最基本的API调用能力
特点：评估准确性

L2（工具选择）

目标：验证从多个候选工具中选择最优API的能力
特点：评估准确工具映射

L3（工具顺序推理）

目标：验证通过多阶段推理的计划和执行能力
特点：评估有计划性的工具链

L4（工具并行推理）

目标：并行收集信息并综合得出结论
特点：评估多源聚合能力

L5（错误处理与强固性）

目标：验证错误情况下的应对能力
细项：附加提问请求、防止幻觉、回避机动

多轮对话

L6（高效工具利用）

目标：验证有效重用先前工具结果的能力
特点：评估合理选择能力

L7（长期上下文推理）

目标：验证在多轮对话中维持长期上下文的能力
特点：评估上下文维护能力

评估范围

评估对象：支持工具调用的开放权重sLLM、商业API
评估范围：单轮及多轮对话情境中作为智能体执行工具调用的能力
应用API：18种韩式开放API

相关资源

排行榜：https://huggingface.co/spaces/huggingface-KREW/Ko-AgentBench
GitHub仓库：https://github.com/Hugging-Face-KREW/Ko-AgentBench
数据集页面：https://huggingface.co/datasets/huggingface-KREW/Ko-AgentBench

搜集汇总

数据集介绍

构建方式

在人工智能代理能力日益精进的背景下，Ko-AgentBench数据集通过精心设计的七级任务架构构建而成，覆盖从基础工具调用到复杂上下文推理的全方位评估。该数据集整合了18种韩国本土API，模拟真实生活场景如预约服务、商品比价等，确保评估环境贴近韩国用户的实际使用习惯。数据采集过程注重场景多样性与任务层次性，通过分阶段标注与验证，形成了包含指令与工具列表的结构化数据，为代理模型的工具调用能力提供了系统化测试基准。

特点

Ko-AgentBench的突出特点在于其分层评估体系与本土化设计。数据集将代理能力分解为七个渐进层级，涵盖单工具调用、多工具选择、序列推理及错误处理等核心维度。特别融入了韩国特有的服务API与生活场景，如Naver地图与Kakao服务集成，增强了评估的实用性与地域适应性。此外，数据集引入缓存机制与健壮性测试，能够有效识别模型在信息不一致或API失败时的应对策略，确保评估结果兼具精确度与鲁棒性。

使用方法

使用Ko-AgentBench时，研究者可通过HuggingFace数据集库直接加载整体或特定层级数据，灵活适配不同深度的评估需求。数据以指令与工具列表的键值对形式呈现，支持单轮与多轮对话场景的自动化测试。评估过程需结合官方GitHub仓库提供的工具与指标，涵盖工具选择准确性、参数配置合理性及流程效率等多维度分析。该设计便于集成至现有代理系统流水线，为模型优化与能力比较提供标准化框架。

背景与挑战

背景概述

随着人工智能代理能力的日益精进，对其在真实环境中性能的精确评估需求愈发迫切。Ko-AgentBench由Hugging Face KREW团队开发，作为首个专注于韩语环境的智能代理基准测试数据集，旨在填补现有基准以英语为中心的设计空白。该数据集构建于2024年，通过模拟韩国本土化应用场景，如Naver地图查询、Kakao服务交互等，系统性地评估代理工具调用能力。其创新性的七级任务分类体系，从基础工具调用到长期上下文推理，为韩语人工智能代理的发展提供了标准化评估框架，显著推动了跨语言代理研究的深入发展。

当前挑战

在解决韩语代理评估领域问题时，需克服多维度挑战：传统基准难以捕捉韩语特有的语言结构与文化语境，导致评估结果与真实应用场景脱节。构建过程中面临双重困难：一是需要精准设计18种韩国本地化API的交互逻辑，确保其覆盖日常生活场景的同时保持技术可行性；二是必须建立跨层级评估指标，在工具选择准确性、参数配置合理性、错误处理鲁棒性等维度实现量化评估。此外，数据采集需平衡现实场景复杂性与评估可重复性，避免因文化特定性导致的评估偏差。

常用场景

经典使用场景

在人工智能代理技术蓬勃发展的背景下，Ko-AgentBench作为专门针对韩语环境设计的基准测试工具，其经典应用场景聚焦于评估智能代理在现实任务中的多维度能力。该数据集通过精心设计的七个层级任务，从基础工具调用到复杂上下文推理，系统化地检验代理模型在韩国本土化场景中的表现，例如利用Naver地图API规划路线或通过Kakao平台查询本地服务信息，为研究者和开发者提供了标准化性能评估框架。

实际应用

在实际应用层面，Ko-AgentBench深度契合韩国数字化生活场景，其集成的18种本土API覆盖了出行导航、商品比价、服务预约等高频需求。例如在智能助手开发中，可依据L3层级的顺序推理能力实现跨境物流追踪，或通过L6层级的缓存复用机制优化服务响应效率。这些特性使其成为金融科技、电子商务等领域构建本地化智能服务系统的关键验证工具。

衍生相关工作

基于该数据集衍生的经典研究主要集中在三个方向：其一是工具学习领域的层次化评估框架构建，如将L4并行推理范式扩展至多语言场景；其二是鲁棒性增强技术，借鉴L5错误处理机制开发出对抗性训练新方法；此外，在长程上下文建模方面，L7层级的记忆保持策略催生了多项关于对话状态跟踪的创新研究，这些成果持续推动着具身智能系统的技术演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集