five

itsPrerna202/OctoCodingBench

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/itsPrerna202/OctoCodingBench
下载链接
链接失效反馈
官方服务:
资源简介:
OctoCodingBench是一个用于评估仓库基础编码代理在遵循脚手架指令方面的基准测试。它不仅关注代理是否能够正确完成任务,还强调代理在实现过程中是否遵守了各种约束和规则。数据集包含72个精选实例,涵盖任务规范、系统提示、评估清单、Docker镜像和脚手架配置。它测试了代理在7种不同指令来源下的合规性,包括系统提示、系统提醒、用户查询、项目级约束、技能、记忆和工具模式。数据集支持多脚手架(如Claude Code、Kilo、Droid),并提供了详细的评估指标和用法说明。

OctoCodingBench is a benchmark for evaluating scaffold-aware instruction following in repository-grounded agentic coding. It focuses not only on whether the agent can complete tasks correctly but also on whether the agent adheres to various constraints and rules during implementation. The dataset contains 72 curated instances, including task specifications, system prompts, evaluation checklists, Docker images, and scaffold configs. It tests agent compliance across 7 heterogeneous instruction sources: system prompt, system reminder, user query, project-level constraints, skill, memory, and tool schema. The dataset supports multiple scaffolds (e.g., Claude Code, Kilo, Droid) and provides detailed evaluation metrics and usage instructions.
提供机构:
itsPrerna202
搜集汇总
数据集介绍
main_image_url
构建方式
OctoCodingBench是一个专为评估代码智能体在仓库级编程任务中遵循指令能力而设计的基准数据集。该数据集由MiniMax团队精心构建,包含72个经过严格筛选与标注的实例,每个实例均源自真实世界的编程场景。构建过程中,研究者为每个实例设计了来自7种异构指令源的约束条件,涵盖系统提示、项目级规范、用户查询、技能调用规则、记忆上下文、工具模式约束及系统提醒等多个维度。每个任务实例均配备了对应的Docker镜像环境、脚手架配置以及一套结构化二进制检查清单,总计包含2422个可客观判定的检查项,从而系统性地评估智能体在完成任务的同时是否严格遵循了各项规则。
使用方法
使用OctoCodingBench进行评测需遵循三个核心步骤:首先,根据任务实例中指定的Docker镜像标签拉取对应容器化环境,并启动隔离的编程工作空间;其次,将系统提示与用户查询序列作为输入,驱动待评测的代码智能体在环境中完成编程任务,并完整记录其交互轨迹;最后,利用基于大语言模型的评判系统,依据任务附带的检查清单对智能体的行为进行逐项二进制评分。研究者可通过HuggingFace Datasets库直接加载数据集,并依据类别或智能体框架对任务实例进行灵活筛选。完整的评测脚本及评分工具链正在积极开发中,预计将作为开源工具包发布,以支持社区进行标准化评测。
背景与挑战
背景概述
随着大型语言模型在代码生成领域的深度应用,编码智能体(Coding Agent)的自主编程能力成为研究焦点。然而,现有基准测试如SWE-bench主要评估任务完成度,忽视了智能体在实现过程中对指令的遵循程度。2026年,MiniMax研究团队推出OctoCodingBench,一个专注于指令遵循能力的存储库级编码基准。该基准涵盖72个精心设计的实例,包含2,422个二进制可判定的检查项,横跨系统提示、项目约束等7类异构指令源,旨在全面衡量智能体在多源规则约束下的行为合规性。OctoCodingBench的发布为编码智能体的安全可控性评估提供了新范式,填补了指令遵循维度系统性评测的空白。
当前挑战
OctoCodingBench致力于解决的核心挑战在于,编码智能体在完成复杂存储库级任务时,往往存在高任务成功率与低指令遵循率的脱节现象。具体而言,智能体可能正确实现功能,却违反系统提示中的格式约束、项目编码规范或工具调用协议。构建过程中面临的主要挑战包括:1)设计能够区分任务完成与规则遵循的评估体系,确保检查项客观可判定;2)收集并规范化来自系统提示、项目文档、多轮用户查询等7种完全不同来源的指令约束,并对其权威层级进行合理排序;3)构建34个独立Docker环境以保证评测的隔离性与可复现性;4)处理指令冲突场景下智能体的行为评估难题。
常用场景
经典使用场景
在代码智能体研究的广阔版图中,OctoCodingBench以其独特的视角,开创性地将评测焦点从传统的任务完成度转向指令遵循的合规性。该数据集最经典的使用场景在于系统性地评估具备仓库级代码理解能力的智能体,在遵循多源、异构约束条件下的表现。研究者可依据数据集中精心设计的72个实例,涵盖系统提示、项目级编码规范、工具调用协议及多轮用户指令等七类指令源,对智能体进行细粒度的二元清单式评分。每个实例均配备独立的Docker执行环境与平均33.6项可判定检查条目,使得评测过程兼具客观性与可复现性,为衡量代码智能体的真实行为边界提供了一个严谨的量化标尺。
解决学术问题
OctoCodingBench的诞生,精准回应了当前代码智能体评测研究中一个长期被忽视的学术裂缝。过往的基准如SWE-bench等专注于任务完成结果是否正确,却未能揭示智能体在解决问题过程中是否严格遵守了给定的行为规范。该数据集创造性地解耦了任务完成与规则遵循这两个维度,实证了高任务成功率不等于高指令合规性这一关键现象。它系统地提出了指令冲突检测、多源约束优先级排序、以及持续性指令追踪等前沿研究问题,促使学界重新审视智能体行为的可控性与可信度。这一转向深刻影响了代码生成领域的评估范式,推动了从单纯追求功能正确性到全面关注行为合规性的学术演进。
实际应用
在工业级代码智能体的部署实践中,OctoCodingBench所倡导的指令遵循评测理念具有深远的应用价值。该数据集可直接用于自动化评测和筛选生产环境中的编码助手,例如评估Claude Code、Kilo、Droid等真实脚手架工具在遵循企业级编码规范(如CLAUDE.md)与安全输出格式方面的表现。通过其内置的2,422项二元可判定检查点,工程团队能够定量识别智能体在行为约束上的薄弱环节,如是否在工具调用时产生幻觉性参数、是否在多轮对话中保持指令一致性。此外,该数据集的冲突检测机制为构建更可靠、更可解释的企业级代码智能体提供了关键的测试基准,助力于研发能够更好服从人类监管的生产系统。
数据集最近研究
最新研究方向
OctoCodingBench作为首个聚焦于编码代理指令遵循能力的基准测试,突破了传统任务完成度评估的局限,将研究焦点转向了代理在仓库级编码任务中如何精确遵守异构约束。当前前沿方向集中在:其一,量化分析系统提示、项目文档(如CLAUDE.md)、工具模式等多源指令的遵从性,揭示了高任务成功率与低规则遵循率间的显著解耦现象;其二,利用该基准的二进制检查表评分机制,系统评估不同代理框架(如Claude Code、Kilo)在处理冲突指令及多轮指令记忆维持上的鲁棒性。这一研究方向直接关联到AI编码代理在生产环境中的可治理性与合规性,其影响在于推动代理开发从功能导向转向行为对齐,为构建可靠、可控的软件工程智能体奠定了评估基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作