OCTOBENCH

Name: OCTOBENCH
Creator: 复旦大学; MiniMax; 北京大学
Published: 2026-01-15 20:36:08
License: 暂无描述

arXiv2026-01-15 更新2026-01-17 收录

下载链接：

https://github.com/MiniMax-AI/mini-vela

下载链接

链接失效反馈

官方服务：

资源简介：

OCTOBENCH是由复旦大学、MiniMax和北京大学联合构建的基准测试数据集，专注于评估智能编码代理在复杂脚手架环境下的指令遵循能力。该数据集包含34个独立环境和217个任务实例，覆盖三种工业级脚手架类型（Claude Code、Kilo和Droid），并配套7,098项可客观验证的检查项。数据来源于真实工业场景的代码仓库策略文件、工具模式文档等材料，通过人工标注与模型扩展相结合的方式构建。数据集通过细粒度的轨迹记录和自动化评估工具包，支持对智能体在长期多轮交互中遵守异构指令的能力进行量化分析，旨在解决现有代码生成评估中过程约束验证不足的难题。

OCTOBENCH is a benchmark dataset jointly developed by Fudan University, MiniMax, and Peking University, focusing on evaluating the instruction-following capability of intelligent coding agents in complex scaffolding environments. This dataset comprises 34 independent environments and 217 task instances, covering three industrial-grade scaffolding types (Claude Code, Kilo, and Droid), and comes with 7,098 objectively verifiable check items. The dataset is constructed based on materials including code repository policy documents and tool mode documentation from real-world industrial scenarios, via a combination of manual annotation and model expansion. Equipped with fine-grained trajectory logging and an automated evaluation toolkit, the dataset supports quantitative analysis of agents' ability to adhere to heterogeneous instructions during long-term multi-turn interactions, aiming to address the challenge of insufficient process constraint verification in existing code generation evaluations.

提供机构：

复旦大学; MiniMax; 北京大学

创建时间：

2026-01-15

原始信息汇总

Mini-Vela 数据集概述

数据集基本信息

数据集名称：mini-vela
关联论文：OctoBench: Benchmarking Scaffold-Aware Instruction Following in Repository-Grounded Agentic Coding
论文链接：https://arxiv.org/abs/2601.10343
数据集托管地址：https://huggingface.co/datasets/MiniMaxAI/OctoBench
许可证：MIT License

数据集核心用途

一个用于评估AI编码代理指令遵循能力的基准测试框架。该框架通过LiteLLM代理拦截API调用，收集完整的交互轨迹，并使用LLM进行自动化评分。

主要特性

多脚手架支持：支持Claude Code、Kilo-Dev、Droid等多种AI开发工具。
轨迹收集：自动拦截并记录完整的API调用轨迹。
自动化评估：基于检查清单，使用LLM对轨迹进行多维度评分。
Docker隔离：每个任务实例在具有干净环境的独立容器中运行。

核心处理流程

代理启动：LiteLLM代理在主机上运行，拦截所有API调用。
任务执行：脚手架（Claude Code、Kilo、Droid）在Docker容器中完成任务。
轨迹收集：每个API请求/响应被记录到单独的JSONL文件中（原始轨迹）。
轨迹处理：使用convert/工具对原始轨迹进行去重和合并，形成完整的对话轨迹。
自动化评估：基于检查清单，使用LLM对合并后的轨迹进行评分。

数据格式说明

任务实例格式

任务实例从数据集加载，每条记录为JSON格式。 关键字段：

scaffold.name：脚手架名称（claudecode / kilo-dev / droid）
user_query：用户查询列表，支持多轮对话
checklist：评估检查项，按类别组织

原始轨迹格式

由代理收集的原始轨迹，每个API调用对应一条记录。 关键字段：

instance_id：实例标识符
timestamp：时间戳
success：调用是否成功
model：使用的模型
request：请求内容
response：响应内容
usage：令牌使用情况

合并轨迹格式

经过convert/处理后的完整对话轨迹。 关键字段：

meta：元数据，包含会话ID、业务ID、模型等
tools：可用工具列表
messages：消息序列，包含角色、内容、推理内容和工具调用

评估结果格式

关键字段：

results：每个实例的评估结果，包含实例ID、成功状态、奖励分数和详细评估结果
summary：总体统计摘要，包含任务总数、成功数量和平均奖励分数

配置信息

LiteLLM代理配置：通过proxy/litellm_config.yaml文件配置支持的模型列表及其参数。
环境变量：包括轨迹输出目录、代理监听端口以及各LLM服务的API密钥等。

项目结构

benchmark/：包含基准测试运行脚本、主程序、评估脚本和依赖文件。
scaffolds/：包含各种脚手架模块的实现。
proxy/：包含LiteLLM代理组件，用于轨迹收集。
convert/：包含轨迹处理工具，用于去重和合并。

搜集汇总

数据集介绍

构建方式

在智能体编程框架日益普及的背景下，OCTOBENCH 的构建遵循了系统化的数据采集与标注流程。研究团队首先从真实代码仓库中收集了包含多种指令来源的原始材料，例如系统提示、用户查询序列、仓库策略文件以及预置的记忆状态。这些材料被封装成可执行的 Docker 环境，并实例化为三种主流编程脚手架（Claude Code、Kilo 和 Droid）下的具体任务。通过“种子-扩展”方法，标注人员手动创建了 72 个种子实例，随后利用大语言模型将其扩展至 217 个任务，并确保每个任务都能激活可验证的异构约束。

使用方法

使用 OCTOBENCH 时，研究者需在封装好的任务环境中运行待评估的编码智能体，并利用配套的观测工具完整记录其行动轨迹。随后，通过基于大语言模型的评判机制，将轨迹与实例特定的检查清单进行比对，独立评估每个检查项的满足情况。该流程支持计算实例成功率与检查项成功率两项核心指标，前者衡量智能体完全遵循所有约束的严格能力，后者则提供细粒度的合规性诊断。数据集的设计确保了评估过程的可重复性与客观性，适用于系统分析模型在不同指令类别和脚手架下的指令遵循鲁棒性。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，大型语言模型驱动的智能编码代理正逐步重塑软件开发范式。然而，现有评估体系多聚焦于任务完成度，对代理在复杂脚手架环境中遵循异构、持久指令的能力缺乏系统性度量。为填补这一空白，复旦大学与MiniMax等机构的研究团队于2026年联合发布了OCTOBENCH基准数据集。该数据集旨在评测仓库情境下智能编码代理对脚手架感知指令的遵循能力，其核心研究问题在于如何量化模型在面临多源、异质且可能冲突的指令约束时的合规性表现。OCTOBENCH通过构建34个可执行环境与217项任务实例，并配套7,098项客观检查项，为评估智能代理在真实工业场景中的指令遵循鲁棒性提供了首个专用基准，推动了面向复杂人机协作的可靠智能体研发。

当前挑战

OCTOBENCH所针对的核心领域挑战在于智能编码代理对异构指令的遵循问题。在现实软件开发流程中，指令来源多样，包括系统提示、用户查询、仓库策略文件、工具模式等，这些指令可能具有不同的权威层级与时间跨度，且彼此间存在潜在冲突。传统评估方法难以捕捉这种分布式、长生命周期的规则遵循情况，导致代理可能在完成功能任务的同时，无声地违反更高优先级的约束。在数据集构建层面，挑战主要体现为如何系统化地封装可验证的约束结构，以及如何设计自动化观察与评分工具包以精确捕获完整交互轨迹。具体而言，构建过程需确保任务设计能激活目标类别的约束，同时保证每项约束均可通过客观二元判断进行验证，并需处理脚手架注入或条件触发的隐形指令的可靠对齐与评估。

常用场景

经典使用场景

在智能体编程领域，OCTOBENCH作为首个专注于脚手架感知指令遵循的基准测试，其经典使用场景在于评估大型语言模型在复杂、多源指令约束下的长期合规能力。该数据集通过模拟真实的代码仓库环境，结合Claude Code、Kilo和Droid三种主流编程脚手架，构建了34个可执行任务环境与217项具体任务，并配备了7,098项客观可验证的检查项。研究者利用其自动化轨迹记录与评分工具包，能够精确捕捉智能体在跨文件操作、工具调用及迭代修改过程中的行为轨迹，从而系统分析模型在异构指令源（如系统提示、用户查询、仓库策略文件）下的遵循表现，尤其擅长揭示模型在任务成功完成与过程合规之间的潜在差距。

解决学术问题

OCTOBENCH针对当前智能体编程评估中的关键空白，系统解决了三大核心学术问题：一是传统评估方法难以捕捉分布式、长周期指令遵循的缺陷，通过引入细粒度检查表与轨迹分析，实现了对多轮交互中持续性约束的量化评估；二是突破了以往仅关注任务结果正确性的局限，将过程合规与任务解决解耦，使研究者能够识别模型在遵循代码风格、工具模式等非功能性要求时的隐性违规；三是首次在仓库级编程任务中构建了显式的指令冲突场景（如用户查询与系统提示的矛盾），为探究模型在异构指令源下的优先级偏倚与冲突解决机制提供了可控实验环境，推动了指令遵循理论从单轮、显式约束向多源、持久约束的范式演进。

实际应用

在实际工业场景中，OCTOBENCH为开发更可靠、可管控的编程智能体提供了关键验证工具。企业可借助该基准测试，评估不同模型在遵循项目特定规范（如CLAUDE.md中的代码风格约定）、安全策略（如禁止危险Git操作）及团队协作流程（如记忆状态一致性）上的实际表现，从而筛选出最适合集成到现有开发流水线中的AI助手。此外，其冲突解决分析功能有助于理解模型在用户需求与系统约束发生矛盾时的决策倾向，为设计更安全的指令优先级机制提供依据，降低智能体在真实代码仓库中引入合规风险或安全漏洞的可能性，加速AI辅助编程工具在大型软件项目中的落地应用。

数据集最近研究