api-eval-20

Hugging Face2026-03-24 更新2026-03-25 收录

下载链接：

https://huggingface.co/datasets/kusho-ai/api-eval-20

下载链接

链接失效反馈

官方服务：

资源简介：

APIEval-20 是一个用于评估 AI 代理在黑盒 API 测试套件生成任务中表现的基准数据集。该数据集包含 20 个精心设计的 API 场景，涵盖电子商务、支付、认证、用户管理等多个领域。每个场景提供一个 API 请求的 JSON 模式和一个示例有效负载，挑战代理生成能够发现隐藏错误的测试套件。数据集中的错误分为简单、中等和复杂三个级别，评估指标包括错误检测率、覆盖率和效率。APIEval-20 旨在衡量 AI 代理在有限信息下进行推理、发现边缘案例和设计有效测试策略的能力，为 AI 代理在软件工程中的实际应用提供评估标准。

创建时间：

2026-03-20

5,000+

优质数据集

54 个

任务类型

进入经典数据集