agent-benchmark

Hugging Face2026-04-12 更新2026-04-13 收录

下载链接：

https://huggingface.co/datasets/hlido-eu/agent-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Hlido AI Agent Benchmark 是一个用于独立评估AI代理和产品的数据集，采用加密认证的方式确保评测结果的真实性和不可篡改性。数据集以机器可读的形式记录了Hlido评测管道的运行结果，包含每次运行的详细记录，如运行ID、测试域名、评分、分层标签、访问页面、遇到的阻碍、验证的市场声明数量等。数据集采用双层评分模型：第一层为引擎评分，评估公开可验证的产品特性；第二层为Hlido Laddoo评分，从战略创新、产品体验、执行力和价值信号四个维度进行独立编辑评估。所有评测结果均通过C2PA加密签名，确保数据的真实性和可追溯性。数据集适用于AI代理的基准测试、研究和分析，但禁止用于商业竞争产品的开发。

The Hlido AI Agent Benchmark is a dataset designed for independent evaluation of AI Agents and products, which adopts cryptographic authentication to ensure the authenticity and immutability of evaluation results. The dataset records the operational results of the Hlido evaluation pipeline in machine-readable format, including detailed records of each run such as run ID, test domain name, score, hierarchical tags, accessed pages, encountered obstacles, and the number of verified market claims. The dataset adopts a two-tier scoring model: the first tier is engine scoring, which evaluates publicly verifiable product characteristics; the second tier is the Hlido Laddoo scoring, which conducts independent editorial evaluations across four dimensions: strategic innovation, product experience, execution, and value signals. All evaluation results are cryptographically signed via C2PA to ensure the authenticity and traceability of the dataset. This dataset is applicable to benchmarking, research and analysis of AI Agents, but is prohibited from being used for the development of commercial competing products.

创建时间：

2026-04-11

搜集汇总

数据集介绍

构建方式

在人工智能代理评估领域，构建一个可靠且可验证的基准数据集至关重要。Hlido AI Agent Benchmark 数据集的构建依托于一套全自动化的测试流水线。该流水线能够自主执行对目标AI代理或产品的公开网络界面进行爬取与评估。每个评估过程均生成唯一的运行记录，并采用C2PA（内容来源与真实性联盟）标准进行密码学签名，以确保数据来源的真实性与不可篡改性。评估结果基于专有的双层评分模型计算，涵盖了从产品表面功能到核心价值的多个维度，最终形成结构化的运行日志文件。

特点

该数据集的核心特点在于其独立性与可验证性。它并非简单的性能指标集合，而是提供了经过密码学认证的完整评估证据链。数据集中的每条记录都关联着私有的证明包，包含屏幕录像、时间戳截图及结构化元数据，所有内容均带有可验证的签名。其评分体系独具特色，结合了自动化的“引擎分数”与反映产品内在价值的“Laddoo Score”，并辅以置信度标签，清晰区分了基于公开信息的验证程度与编辑团队的独立评判。这种设计为研究提供了高透明度和可审计的数据基础。

使用方法

研究人员可通过直接访问托管于HuggingFace平台的数据文件来使用此数据集。典型的使用流程包括加载JSON格式的运行日志，随后根据研究需求对数据进行筛选与分析。例如，可以过滤出已获得Laddoo评分的完整运行记录，并依据分数进行排序，以识别表现优异的AI代理。数据集主要用于非商业性的学术研究、新闻报道或个人分析项目，使用者需遵守CC BY-NC 4.0许可协议，并在任何公开成果中明确标注数据来源为Hlido。

背景与挑战

背景概述

在人工智能代理（AI Agent）技术迅猛发展的背景下，对其性能与可信度进行标准化评估成为学术界与工业界共同关注的焦点。Hlido AI Agent Benchmark 数据集由 Hlido 机构于2026年创建，旨在提供独立、可验证的AI代理评估框架。该数据集通过自动化测试流程，结合密码学签名技术（C2PA），对AI代理的产品清晰度、功能深度、信任信号等多个维度进行量化评分，核心研究问题在于如何建立透明、抗篡改的评估体系，以推动AI代理领域的可靠性与可比性研究，为技术选型与学术分析提供实证基础。

当前挑战

该数据集致力于解决AI代理评估领域的核心挑战，即如何在动态、异构的交互环境中，设计出既全面又客观的评估指标，以准确反映代理的实际能力与商业价值。构建过程中的挑战主要体现在技术层面：首先，自动化测试流程需应对多样化的用户界面与交互逻辑，确保评估的覆盖度与鲁棒性；其次，集成C2PA密码学签名以保障数据来源的真实性与完整性，增加了系统复杂性与计算开销；此外，平衡公开可验证信息与受限访问内容之间的评分公正性，亦需精巧的方法论设计。

常用场景

经典使用场景

在人工智能代理评估领域，该数据集为研究者提供了标准化的基准测试框架。其核心应用场景在于系统性地评估各类AI代理在真实网络环境中的性能表现，通过自动化测试流水线对代理的产品清晰度、功能深度、信任信号等六个维度进行量化分析。数据集中的加密签名机制确保了评估过程的可追溯性与结果的可验证性，为横向比较不同代理的公开表面能力提供了可靠的数据基础。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在三个方向：一是基于其评估框架扩展的多模态代理测试体系，如结合视觉与交互数据的增强型评估协议；二是借鉴其密码学认证机制发展的AI溯源技术研究，推动形成行业级的内容来源验证标准；三是利用其长期评估数据训练的代理性能预测模型，这些工作共同构建了从基础评估到前沿应用的完整研究生态。

数据集最近研究