ArchBench
收藏arXiv2026-03-18 更新2026-03-20 收录
下载链接:
https://github.com/sa4s-serc/archbench-cli
下载链接
链接失效反馈官方服务:
资源简介:
ArchBench是由国际信息技术研究所·海得拉巴和软件工程研究中心联合开发的首个软件架构任务统一基准平台。该平台整合了五个任务数据集,包括架构决策记录生成、服务器无组件生成等,涵盖1000余份架构文档和多个开源项目代码。数据集通过自动化流程从GitHub、Zenodo等平台获取,并采用NLP相似性指标和代码测试通过率等多维度评估标准。平台通过模块化设计支持社区贡献新任务,旨在解决生成式AI在软件架构领域缺乏标准化评估的难题,推动架构决策、代码生成等任务的模型能力对比与优化。
提供机构:
国际信息技术研究所·海得拉巴; 软件工程研究中心
创建时间:
2026-03-18
原始信息汇总
ArchBench 数据集概述
数据集简介
ArchBench 是一个用于评估大语言模型在软件架构任务上性能的基准测试工具。
核心任务
该基准测试针对以下四个软件架构任务提供标准化评估:
| 任务 | 描述 | 主要评估指标 |
|---|---|---|
| ADR | 架构决策记录生成 | BERTScore F1 |
| Traceability | 架构到代码的可追溯性链接恢复 | F1 分数 |
| Serverless | 无服务器组件生成 | 测试通过率 |
| Dynamic | 动态物联网服务生成 | CodeBERTScore |
数据集使用与评估
预测文件格式
预测结果需采用 JSONL 格式,每行一个预测。 必需字段:
instance_id:字符串,与数据集中匹配的唯一标识符。model_name_or_path:字符串,所使用的模型名称。prediction:字符串,解析/提取后的预测内容。raw_output:字符串,模型的原始输出(用于验证)。
可选字段(推荐):
latency_ms:浮点数,响应延迟(毫秒)。token_usage:对象,令牌计数{prompt_tokens, completion_tokens}。
评估指标
ADR 任务:
- ROUGE-1/2/L
- BLEU
- METEOR
- BERTScore P/R/F1
Traceability 任务:
- 精确率
- 召回率
- F1 分数
数据与结果管理
工具支持完整的推理轨迹记录,用于验证。轨迹内容包括:
- 发送给模型的精确提示
- 模型原始响应
- 解析后的输出
- 时间和令牌使用情况
- 遇到的任何错误
排行榜提交
提交结果至 ArchBench 排行榜需遵循以下步骤:
- 启用轨迹记录运行推理。
- 验证预测文件格式。
- 向 https://github.com/sa4s-serc/archbench-results 仓库提交 PR,包含:
predictions.jsonl:模型的预测结果。trajectories/:完整的推理轨迹。metadata.yaml:提交元数据。
搜集汇总
数据集介绍

构建方式
在软件架构领域,随着生成式人工智能技术的广泛应用,评估模型在架构任务上的能力成为亟待解决的挑战。ArchBench通过集成已发表研究中的架构任务数据集,构建了一个统一的基准测试平台。该平台采用插件化架构设计,每个任务作为独立模块包含数据集加载器、提示模板、响应解析器和评估逻辑。数据集来源于开源项目仓库和学术研究,涵盖架构决策记录生成、可追溯性链接恢复等五类核心任务,通过自动化管道实现数据获取、模型推理和标准化评估的无缝衔接。
使用方法
研究人员可通过命令行工具快速开展评估实验,平台提供从数据集获取到结果生成的一站式工作流。用户安装CLI工具后,通过单一命令即可触发数据下载、模型推理和自动评估的完整流程,系统将生成结构化预测结果、评估报告及详细轨迹日志。对于希望贡献新任务的研究者,平台提供标准化的插件开发框架,只需实现任务特定的数据加载和评估逻辑即可集成到核心系统中。所有评估结果可通过拉取请求提交至公共排行榜,经过审核后纳入统一比较体系,形成持续演进的社区驱动评估生态。
背景与挑战
背景概述
在软件工程领域,软件架构作为系统质量的核心基石,其决策深刻影响着软件的长期可维护性与演化能力。随着生成式人工智能在软件架构任务中的应用日益广泛,如何系统评估大型语言模型在此类任务上的能力成为亟待解决的课题。ArchBench数据集由印度海得拉巴国际信息技术研究所软件工程研究中心的研究团队于2026年创建,旨在填补软件架构领域缺乏统一评估基准的空白。该数据集首次构建了一个集成化平台,汇集了来自多项研究的架构任务,包括架构决策记录生成、服务器无组件生成等,为研究人员提供了标准化的评估流程与可扩展的插件架构,有力推动了生成式人工智能在软件架构领域的可比较、可复现研究。
当前挑战
ArchBench数据集致力于解决软件架构任务中生成式人工智能能力评估的标准化难题,其核心挑战在于如何准确衡量模型在复杂架构问题上的推理与生成质量。具体而言,评估方法面临严峻考验:现有自动指标如ROUGE、BERTScore难以全面捕捉架构设计的语义合理性与决策深度,而基于测试通过率的评估则偏重于功能正确性,无法充分反映架构设计的优劣。在数据集构建过程中,挑战同样显著:需要从分散的研究中整合多样化的架构任务与数据集,确保数据格式的统一与评估逻辑的一致性;同时,设计可扩展的插件体系以容纳不断涌现的新任务,并维护一个开放、透明的社区贡献机制,这些都对平台的工程实现与可持续性提出了高标准要求。
常用场景
经典使用场景
在软件架构领域,随着生成式人工智能技术的兴起,如何系统评估大型语言模型在架构任务上的能力成为关键挑战。ArchBench作为首个统一基准平台,其经典使用场景聚焦于为研究者和从业者提供一个标准化、可复现的评估框架。通过集成多个架构任务,如架构决策记录生成、可追溯性链接恢复等,该平台允许用户通过命令行工具下载数据集、运行推理并自动计算指标,从而在统一环境中比较不同模型在复杂架构问题上的表现。
解决学术问题
ArchBench解决了软件架构研究中长期存在的评估碎片化问题。传统上,针对生成式AI在架构任务上的研究缺乏统一的数据集和评估标准,导致跨模型比较困难,且难以追踪技术进步。该平台通过聚合来自已发表研究的任务,提供标准化评估流水线,使得研究者能够系统探究模型在架构决策、组件生成等核心问题上的能力差异,从而推动领域内可复现研究和科学共识的形成。
实际应用
在实际工程场景中,ArchBench为软件开发团队提供了选择合适AI工具的依据。通过公开的交互式排行榜,从业者可以直观比较不同大型语言模型或基于LLM的编码智能体在特定架构任务上的性能,例如生成服务器无函数或微服务实现。这有助于团队在引入AI辅助架构设计、重构决策时做出数据驱动的选择,提升系统长期维护效率与质量。
数据集最近研究
最新研究方向
在软件架构领域,随着生成式人工智能技术的深入应用,评估大语言模型在架构任务上的能力已成为研究热点。ArchBench作为首个专注于软件架构任务的统一基准测试平台,填补了该领域长期缺乏标准化评估框架的空白。该平台通过插件化架构整合了架构决策记录生成、可追溯性链接恢复、微服务生成等前沿任务,为研究者提供了可复现的自动化评估流程。其公开的排行榜机制促进了不同模型在架构推理、模块化设计等核心能力上的横向比较,推动了社区驱动的数据集扩展与评估方法演进。这一基础设施的建立,不仅加速了生成式AI在软件架构辅助设计、重构决策等场景的可靠应用,也为探索模型在复杂系统演化中的认知边界提供了实证基础。
相关研究论文
- 1ArchBench: Benchmarking Generative-AI for Software Architecture Tasks国际信息技术研究所·海得拉巴; 软件工程研究中心 · 2026年
以上内容由遇见数据集搜集并总结生成



