ArchBench

Name: ArchBench
Creator: 国际信息技术研究所·海得拉巴; 软件工程研究中心
Published: 2026-03-18 23:26:46
License: 暂无描述

arXiv2026-03-18 更新2026-03-20 收录

下载链接：

https://github.com/sa4s-serc/archbench-cli

下载链接

链接失效反馈

官方服务：

资源简介：

ArchBench是由国际信息技术研究所·海得拉巴和软件工程研究中心联合开发的首个软件架构任务统一基准平台。该平台整合了五个任务数据集，包括架构决策记录生成、服务器无组件生成等，涵盖1000余份架构文档和多个开源项目代码。数据集通过自动化流程从GitHub、Zenodo等平台获取，并采用NLP相似性指标和代码测试通过率等多维度评估标准。平台通过模块化设计支持社区贡献新任务，旨在解决生成式AI在软件架构领域缺乏标准化评估的难题，推动架构决策、代码生成等任务的模型能力对比与优化。

提供机构：

国际信息技术研究所·海得拉巴; 软件工程研究中心

创建时间：

2026-03-18

原始信息汇总

ArchBench 数据集概述

数据集简介

ArchBench 是一个用于评估大语言模型在软件架构任务上性能的基准测试工具。

核心任务

该基准测试针对以下四个软件架构任务提供标准化评估：

任务	描述	主要评估指标
ADR	架构决策记录生成	BERTScore F1
Traceability	架构到代码的可追溯性链接恢复	F1 分数
Serverless	无服务器组件生成	测试通过率
Dynamic	动态物联网服务生成	CodeBERTScore

数据集使用与评估

预测文件格式

预测结果需采用 JSONL 格式，每行一个预测。 必需字段：

instance_id：字符串，与数据集中匹配的唯一标识符。
model_name_or_path：字符串，所使用的模型名称。
prediction：字符串，解析/提取后的预测内容。
raw_output：字符串，模型的原始输出（用于验证）。

可选字段（推荐）：

latency_ms：浮点数，响应延迟（毫秒）。
token_usage：对象，令牌计数 {prompt_tokens, completion_tokens}。

评估指标

ADR 任务：

ROUGE-1/2/L
BLEU
METEOR
BERTScore P/R/F1

Traceability 任务：

精确率
召回率
F1 分数

数据与结果管理

工具支持完整的推理轨迹记录，用于验证。轨迹内容包括：

发送给模型的精确提示
模型原始响应
解析后的输出
时间和令牌使用情况
遇到的任何错误

排行榜提交

提交结果至 ArchBench 排行榜需遵循以下步骤：

启用轨迹记录运行推理。
验证预测文件格式。
向 https://github.com/sa4s-serc/archbench-results 仓库提交 PR，包含：
- predictions.jsonl：模型的预测结果。
- trajectories/：完整的推理轨迹。
- metadata.yaml：提交元数据。

搜集汇总

数据集介绍

构建方式

在软件架构领域，随着生成式人工智能技术的广泛应用，评估模型在架构任务上的能力成为亟待解决的挑战。ArchBench通过集成已发表研究中的架构任务数据集，构建了一个统一的基准测试平台。该平台采用插件化架构设计，每个任务作为独立模块包含数据集加载器、提示模板、响应解析器和评估逻辑。数据集来源于开源项目仓库和学术研究，涵盖架构决策记录生成、可追溯性链接恢复等五类核心任务，通过自动化管道实现数据获取、模型推理和标准化评估的无缝衔接。

使用方法

研究人员可通过命令行工具快速开展评估实验，平台提供从数据集获取到结果生成的一站式工作流。用户安装CLI工具后，通过单一命令即可触发数据下载、模型推理和自动评估的完整流程，系统将生成结构化预测结果、评估报告及详细轨迹日志。对于希望贡献新任务的研究者，平台提供标准化的插件开发框架，只需实现任务特定的数据加载和评估逻辑即可集成到核心系统中。所有评估结果可通过拉取请求提交至公共排行榜，经过审核后纳入统一比较体系，形成持续演进的社区驱动评估生态。

背景与挑战

背景概述

在软件工程领域，软件架构作为系统质量的核心基石，其决策深刻影响着软件的长期可维护性与演化能力。随着生成式人工智能在软件架构任务中的应用日益广泛，如何系统评估大型语言模型在此类任务上的能力成为亟待解决的课题。ArchBench数据集由印度海得拉巴国际信息技术研究所软件工程研究中心的研究团队于2026年创建，旨在填补软件架构领域缺乏统一评估基准的空白。该数据集首次构建了一个集成化平台，汇集了来自多项研究的架构任务，包括架构决策记录生成、服务器无组件生成等，为研究人员提供了标准化的评估流程与可扩展的插件架构，有力推动了生成式人工智能在软件架构领域的可比较、可复现研究。

当前挑战

ArchBench数据集致力于解决软件架构任务中生成式人工智能能力评估的标准化难题，其核心挑战在于如何准确衡量模型在复杂架构问题上的推理与生成质量。具体而言，评估方法面临严峻考验：现有自动指标如ROUGE、BERTScore难以全面捕捉架构设计的语义合理性与决策深度，而基于测试通过率的评估则偏重于功能正确性，无法充分反映架构设计的优劣。在数据集构建过程中，挑战同样显著：需要从分散的研究中整合多样化的架构任务与数据集，确保数据格式的统一与评估逻辑的一致性；同时，设计可扩展的插件体系以容纳不断涌现的新任务，并维护一个开放、透明的社区贡献机制，这些都对平台的工程实现与可持续性提出了高标准要求。

常用场景

经典使用场景

在软件架构领域，随着生成式人工智能技术的兴起，如何系统评估大型语言模型在架构任务上的能力成为关键挑战。ArchBench作为首个统一基准平台，其经典使用场景聚焦于为研究者和从业者提供一个标准化、可复现的评估框架。通过集成多个架构任务，如架构决策记录生成、可追溯性链接恢复等，该平台允许用户通过命令行工具下载数据集、运行推理并自动计算指标，从而在统一环境中比较不同模型在复杂架构问题上的表现。

解决学术问题

ArchBench解决了软件架构研究中长期存在的评估碎片化问题。传统上，针对生成式AI在架构任务上的研究缺乏统一的数据集和评估标准，导致跨模型比较困难，且难以追踪技术进步。该平台通过聚合来自已发表研究的任务，提供标准化评估流水线，使得研究者能够系统探究模型在架构决策、组件生成等核心问题上的能力差异，从而推动领域内可复现研究和科学共识的形成。

实际应用

在实际工程场景中，ArchBench为软件开发团队提供了选择合适AI工具的依据。通过公开的交互式排行榜，从业者可以直观比较不同大型语言模型或基于LLM的编码智能体在特定架构任务上的性能，例如生成服务器无函数或微服务实现。这有助于团队在引入AI辅助架构设计、重构决策时做出数据驱动的选择，提升系统长期维护效率与质量。

数据集最近研究