five

api-eval-20

收藏
Hugging Face2026-03-24 更新2026-03-25 收录
下载链接:
https://huggingface.co/datasets/kusho-ai/api-eval-20
下载链接
链接失效反馈
官方服务:
资源简介:
APIEval-20 是一个用于评估 AI 代理在黑盒 API 测试套件生成任务中表现的基准数据集。该数据集包含 20 个精心设计的 API 场景,涵盖电子商务、支付、认证、用户管理等多个领域。每个场景提供一个 API 请求的 JSON 模式和一个示例有效负载,挑战代理生成能够发现隐藏错误的测试套件。数据集中的错误分为简单、中等和复杂三个级别,评估指标包括错误检测率、覆盖率和效率。APIEval-20 旨在衡量 AI 代理在有限信息下进行推理、发现边缘案例和设计有效测试策略的能力,为 AI 代理在软件工程中的实际应用提供评估标准。
创建时间:
2026-03-20
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作