rajnadkarni/amazon-orchestrator-ca-sft-sera-django

Name: rajnadkarni/amazon-orchestrator-ca-sft-sera-django
Creator: rajnadkarni
Published: 2026-05-01 18:06:54
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/rajnadkarni/amazon-orchestrator-ca-sft-sera-django

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个专用于编码代理的监督微调数据集，源自allenai/Sera-4.5A-Django-T2，并转换为亚马逊Nova构建阶段协调器风格的协议。旨在训练编码代理从协调器请求中返回CA拥有的拉取请求操作，特别是OPEN_PR和UPDATE_PR。主要训练文件为data/train.jsonl，包含43,800行数据，其中OPEN_PR和UPDATE_PR各占21,900行。数据集还包括验证和生成过程的详细说明，以及使用建议和限制。

This dataset is a coding-agent-only supervised fine-tuning dataset derived from allenai/Sera-4.5A-Django-T2 and transformed into an Amazon Nova build-phase orchestrator-style protocol. It is intended to train a coding agent to return CA-owned pull-request actions, specifically OPEN_PR and UPDATE_PR, from CA-visible orchestrator requests. The main training split is data/train.jsonl, containing 43,800 rows with equal distribution between OPEN_PR and UPDATE_PR. The dataset includes detailed descriptions of the row format, loading instructions, generation process, validation, and intended use cases.

提供机构：

rajnadkarni

搜集汇总

数据集介绍

构建方式

该数据集源自 Allen AI 发布的 Sera-4.5A-Django-T2 基准数据集，经系统性转换与增强后，构建为面向亚马逊 Nova 构建阶段编排器协议的编码智能体监督微调数据。原始 OPEN_PR 样本通过将 Sera 轨迹转换为编排器风格的编码智能体请求与响应获得。为平衡动作类型分布，利用 Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8 教师模型，借助 NVIDIA NeMo Data Designer 从 Sera 衍生种子会话中生成结构化更新计划，进而物化为亚马逊协议格式的 UPDATE_PR 样本。最终经本地验证器校验，确保零泄漏、零模式与零语义错误，形成包含 21,900 条 OPEN_PR 和 21,900 条 UPDATE_PR 的平衡训练集。

特点

数据集的核心特点在于其严格遵循编排器协议，仅包含编码智能体可执行的拉取请求动作（OPEN_PR 与 UPDATE_PR），刻意排除非编码智能体动作标签，确保训练聚焦性。每条样本采用 raw_request 提示模式，输入为面向编码智能体的 TurnRequest JSON 对象，输出为对应 TurnResponse，且包含完整的系统、用户与助手三消息对话结构。数据集中合成样本（UPDATE_PR）携带 synthetic_scenario 字段，细分为 merge_failure_guidance_update 与 su_feedback_update 两类场景，源自不同的生成策略，丰富了训练数据的多样性。同时保留 source_instance_id 与 source_dataset 字段维护溯源，支持责任归属与许可合规。

使用方法

使用时应通过 HuggingFace Datasets 库加载 data/train.jsonl 文件，并利用 json.loads() 解析每条样本中经字符串编码的 messages 字段，以还原系统、用户与助手的三轮对话。推荐以系统消息与用户消息作为模型输入，以助手消息内容作为监督微调目标，助手消息中包含编码智能体的目标 TurnResponse。训练时建议重点关注 ca_target_response 中 actions 数组的动作类型，确保模型仅学习输出 OPEN_PR 与 UPDATE_PR 两种拉取请求动作。可选择性加载 audit/ 目录下的更新计划与合成索引文件进行溯源分析，但这些文件不直接参与监督微调训练。

背景与挑战

背景概述

该数据集名为Amazon Orchestrator Coding-Agent SFT Data from Sera Django，由亚马逊研究团队于近期构建，旨在解决面向复杂软件工程任务的编码智能体微调问题。其核心研究问题聚焦于如何将现有高质量轨迹数据（如Allen AI发布的Sera-4.5A-Django-T2）转化为统一编排协议下的监督微调（SFT）样本，使编码智能体能够精准执行拉取请求（PR）操作。数据集包含43,800条训练样本，均等地涵盖OPEN_PR与UPDATE_PR两类动作，并经过严格的本地验证，实现零泄漏、零模式错误与零语义错误。该数据集对自动化代码协作及智能体编排领域具有重要驱动作用，为构建可靠、可控的编程助手提供了标准化训练资源。

当前挑战

该数据集所解决的领域挑战在于提升编码智能体在复杂编排协议下的动作执行准确性与一致性。传统方法难以确保模型在执行多步骤软件开发任务时仅返回编码智能体所拥有的操作（如OPEN_PR与UPDATE_PR），而非越权执行合并或对话终止等行为。此外，构建过程中面临显著挑战：一是原始Sera轨迹数据的协议转换，需在不丢失语义的前提下适配亚马逊自有编排格式；二是合成生成UPDATE_PR样本时，需借助大规模教师模型（如Qwen3-Coder-480B）与NVIDIA NeMo Data Designer生成结构化的更新计划，再实例化为协议制品。此过程需确保合成样本在协议与语义上均与真实数据高度一致，避免生成虚假或不可执行的代码变更记录，最终通过三方零误差验证实现数据质量保障。

常用场景

经典使用场景

在智能软件开发与自动化运维的交汇领域，该数据集扮演着编码代理（Coding Agent）监督式微调的关键角色。它专为训练能够解析亚马逊风格编排器（Orchestrator）协议的代理而设计，核心任务是将接收到的CA面向的TurnRequest转化为具体的拉取请求操作——即开启新PR（OPEN_PR）或更新已有PR（UPDATE_PR）。这一经典的使用场景聚焦于让模型精准理解并执行编排框架下编码代理独有的职责边界，避免涉足审批、合并等其他代理角色的动作，从而在复杂的多代理协作系统中实现职责的清晰解耦与高效协同。

衍生相关工作

该数据集直接衍生于allenai/Sera-4.5A-Django-T2，后者提供了丰富的Django框架下软件工程轨迹数据。通过将非结构化的代理交互转化为亚马逊编排器协议格式，它启发了至少两个方向的经典工作：其一，利用Qwen3-Coder-480B等大语言模型作为教师，通过NeMo Data Designer生成合成更新计划并物化为协议会话，验证了合成数据在代理动作空间填充中的有效性；其二，其严格的零泄漏、零语义错误验证流程，为后续研究者树立了评估代理SFT数据集质量的标准范式，推动了工具调用与协议生成交叉领域的方法论创新。

数据集最近研究