AI-NativeBench

Name: AI-NativeBench
Creator: 中山大学; 香港中文大学
Published: 2026-01-14 19:32:07
License: 暂无描述

arXiv2026-01-14 更新2026-01-16 收录

下载链接：

https://huggingface.co/datasets/AINativeOps/AINativeBench

下载链接

链接失效反馈

官方服务：

资源简介：

AI-NativeBench是由中山大学和香港中文大学联合开发的首个面向AI原生系统的白盒基准测试套件，包含8个跨3个领域的应用程序及21个系统变体。该数据集基于Model Context Protocol (MCP)和Agent-to-Agent (A2A)标准构建，通过分布式追踪技术实现细粒度性能分析，揭示了参数悖论、推理主导性等传统指标无法捕捉的工程现象。数据集旨在解决AI原生系统从模型能力评估到工程可靠性设计的转型需求，适用于分布式AI系统、多智能体协作等研究领域。

AI-NativeBench is the first white-box benchmark suite tailored for AI-native systems, jointly developed by Sun Yat-sen University and The Chinese University of Hong Kong. It encompasses 8 applications across three distinct domains and 21 system variants. Built upon the Model Context Protocol (MCP) and Agent-to-Agent (A2A) standards, the suite enables fine-grained performance analysis via distributed tracing techniques, uncovering engineering phenomena such as the parameter paradox and reasoning dominance that cannot be captured by traditional metrics. This benchmark suite aims to address the transitional demand for AI-native systems spanning from model capability evaluation to engineering reliability design, and is applicable to research fields including distributed AI systems and multi-agent collaboration.

提供机构：

中山大学; 香港中文大学

创建时间：

2026-01-14

原始信息汇总

AI-NativeBench 数据集概述

数据集基本信息

数据集名称: AI-NativeBench Data
核心描述: 该数据集为“AI-NativeBench: An Open-Source White-Box Agentic Benchmark Suite for AI-Native Systems”提供支持，是一个用于AI原生系统的开源白盒智能体基准测试套件。

数据集结构

数据集目录主要分为两个部分：

1. `raw/` 目录（原始实验数据）

内容性质: 原始的、未经修改的实验数据。
组织方式: 按模型（Model）和任务/架构（Application/Architecture）进行分层组织。
数据特点: 提供执行过程的白盒视图，包含分布式追踪数据。
详细信息: 完整的模型列表及任务/架构文件夹命名规则，请参阅 raw/README.md 文件。

2. `processed/` 目录（处理后结果与分析产物）

内容性质: 基于原始数据衍生的运行产物、聚合表格、图表和分析脚本。
主要包含:
- 每次运行的输出（例如：langfuse_trace.json、提取的 execution_path.md、运行 metadata.json 以及任务输出）。
- 位于 RQ1/、RQ2/、RQ3/ 下的研究问题（RQ）级别分析产物（包括CSV文件、PDF文件以及绘图/聚合脚本）。
详细信息: 详细的目录布局和复现入口点，请参阅 processed/README.md 文件。

目录结构概览

data/ ├── raw/ # 原始实验数据（按模型、按任务/架构） └── processed/ # 处理后结果、聚合输出、图表和脚本

搜集汇总

数据集介绍

构建方式

在云原生向AI原生架构演进的背景下，AI-NativeBench作为首个面向AI原生系统的白盒基准测试套件，其构建采用了以应用为中心的设计理念。该数据集通过整合行业标准协议——模型上下文协议（MCP）与智能体间通信协议（A2A），实现了从单体智能体到异构多智能体应用的多样化架构配置。其核心构建方法在于采用了“追踪优先”的方法论，通过原生集成OpenTelemetry分布式追踪技术，将智能体跨度视为分布式追踪中的一等公民，从而能够精确地归因延迟与错误，为系统级工程特性提供了细粒度分析的基础。

特点

AI-NativeBench数据集的核心特点在于其开创性的白盒可观测性与应用代表性。区别于传统黑盒基准仅关注最终任务完成度，该数据集通过统一的追踪视图，深度融合了语义轨迹（如输入、思考、输出）与技术执行轨迹（如延迟、错误），实现了对确定性故障与随机性决策故障的同时诊断。数据集涵盖了通信协作、软件与数据工程、内容生成三大领域的八个真实应用，智能体规模从单智能体到五智能体集群，并支持从纯框架部署到分布式协议驱动组合的多种架构变体，为研究AI原生系统的性能、可靠性及经济性权衡提供了高度模块化与可配置的实证平台。

使用方法

研究者可利用AI-NativeBench数据集对AI原生系统进行多维度的工程特性评估。使用前需部署其开源套件，该套件已预置OpenTelemetry插装，能够自动捕获并输出统一的执行追踪数据。评估可围绕三个核心研究问题展开：通过对比运行时追踪与黄金追踪，分析模型能力对行为正确性的影响；通过分解端到端延迟，剖析分布式架构中的性能瓶颈与推理主导现象；通过统计不同运行状态下的令牌消耗，量化自治系统的经济成本与故障模式。数据集支持对不同大语言模型、智能体框架及通信协议组合进行受控实验，从而为构建可靠、高效的AI原生系统提供实证指导。

背景与挑战

背景概述

随着大型语言模型深度融入现代软件架构，软件工程领域正经历从云原生向AI原生的范式转变。AI-NativeBench数据集由中山大学与香港中文大学的研究团队于2025年创建，旨在应对这一变革带来的核心挑战：传统黑盒评估方法无法有效度量以概率性智能体服务为核心的AI原生系统的工程特性。该数据集作为首个基于模型上下文协议和智能体间通信标准的白盒基准测试套件，通过将智能体跨度作为分布式追踪中的一等公民，实现了对系统执行动态的细粒度分析。其开源特性为学术界与工业界提供了系统化证据，推动相关研究从单纯评估模型能力转向工程化构建可靠AI原生系统，对分布式计算与软件工程领域具有深远影响。

当前挑战

AI-NativeBench致力于解决AI原生系统评估中的核心挑战：传统基准测试仅关注模型原始能力，而无法诊断系统级性能瓶颈与可靠性问题。具体而言，其面临的挑战包括：在领域问题层面，需精准度量智能体在遵循复杂协议（如MCP、A2A）时的行为正确性、解剖分布式架构中的延迟组成，并量化自主性带来的真实经济成本；在构建过程中，需设计能够融合语义轨迹与技术执行追踪的白盒评估方法，实现跨异构框架与协议的应用代表性覆盖，并确保在大型语言模型固有随机性下评估结果的可复现性与一致性。

常用场景

经典使用场景

在AI原生系统从云原生架构演进的背景下，AI-NativeBench作为首个面向应用中心化与白盒化的智能体基准测试套件，其经典使用场景聚焦于对分布式多智能体系统的工程特性进行精细化评估。该套件通过整合OpenTelemetry分布式追踪与行业标准协议（MCP与A2A），将智能体跨度视为分布式追踪中的一等公民，从而实现对系统内部执行动态的透明观测。研究人员可借助其八个涵盖通信协作、软件工程与内容生成等领域的真实应用，在从单体部署到异构分布式架构的多种变体中进行受控比较，系统性地剖析智能体在复杂工作流中的行为正确性、性能开销与经济成本，为评估AI原生系统的可靠性、可维护性与成本效益提供了标准化的实验平台。

实际应用

在实际工程领域，AI-NativeBench为构建与运维生产级AI原生应用提供了至关重要的诊断与优化工具。系统架构师可利用其评估不同模型（如GPT系列、DeepSeek、Gemini等）在特定工作负载下的协议遵循度与稳定性，从而做出科学的模型选型决策。开发团队能够通过分析细粒度的追踪数据，定位性能瓶颈（如关键路径上的滞后智能体）并量化引入MCP或A2A等标准化协议所带来的延迟与令牌开销。此外，运维工程师可借鉴其揭示的经济学规律，设计具备预算感知能力的治理策略，例如实现语义熔断器以避免在无效工作流上耗尽令牌预算，从而在提升系统自治能力的同时，严格控制运营成本与资源消耗。

衍生相关工作

AI-NativeBench的提出建立在并显著扩展了现有智能体评估与云原生基准测试的研究脉络之上。它直接回应了如AgentBench、GAIA、WebShop等任务中心化黑盒基准的局限性，将评估范式转向系统级的白盒诊断。其方法论深度借鉴并适配了云原生领域成熟的分布式追踪（如OpenTelemetry）与白盒可观测性原则，将其应用于智能体间交互这一新场景。该工作预计将衍生出一系列关注AI原生系统特定工程挑战的后续研究，例如基于追踪数据的自动化故障根因定位、智能体编排框架的性能优化、跨异构框架的语义一致性保障机制，以及面向令牌经济学的自适应资源调度算法等，推动形成一个专注于AI原生软件工程的新兴研究子领域。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集