WithinUsAI/Royal_Ghost_Coder_500k

Name: WithinUsAI/Royal_Ghost_Coder_500k
Creator: WithinUsAI
Published: 2026-05-07 19:25:15
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/WithinUsAI/Royal_Ghost_Coder_500k

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含500,000行的合成指令数据集，主要关注自我编写代码生成、通过补丁和测试进行自我调试、自我变形重构（类型现代化）、自我代码增强（优化）以及自我进化的代理规划（离线优先，安全门控）。数据集格式为普通的JSONL分片，存储在`data/`目录下，未压缩。每条记录包含id、instruction、response和metadata（生成课程和标签）。

A 500,000-row synthetic instruction dataset focused on: self-writing code generation, self-debugging via patches + tests, self-morphing refactors (typed modernization), self code enhancements (optimization), self-evolving agentic planning (offline-first, safety gated). Format: Plain JSONL shards in `data/` (no gzip). Schema: Each row contains id, instruction, response, and metadata (genesis curriculum + tags).

提供机构：

WithinUsAI

搜集汇总

数据集介绍

构建方式

Royal_Ghost_Coder_500k数据集以合成方式构建，聚焦于代码领域的多项核心任务。其生成过程依托于一套名为“genesis curriculum”的课程体系，通过预设的指令模板与代码库交互，自动产生涵盖自我编写、自我调试、自我重构、自我优化以及自主Agent规划等维度的指令-响应对。每条数据均包含唯一的标识符、指令文本、对应响应以及记录生成来源与标签的元数据，以无压缩的JSONL分片格式存储于data/目录下，确保了数据的高效存取与可扩展性。

特点

该数据集最显著的特点在于其面向代码自主演化的综合性。它不仅包含了常规的代码生成与优化样本，更创新性地引入了自我调试（通过补丁与测试用例）、自我重构（类型现代化改造）以及离线优先、安全门控的自主Agent规划等高级任务。50万条的高质量合成指令覆盖了从基础编码到复杂调试、重构与安全规划的完整链路，为训练具备多步推理与自我修正能力的代码智能体提供了丰富且结构化的学习素材。

使用方法

Royal_Ghost_Coder_500k适用于微调与评估具备代码生成与自主演化能力的大型语言模型。使用者可直接加载data/目录下的JSONL分片文件，通过解析每条记录中的instruction字段作为模型输入，response字段作为目标输出，进行监督式微调。对于更复杂的Agent任务，可结合metadata中的课程与标签信息，设计多轮交互或专用评测流程。建议根据具体任务需求，按标签对数据子集进行筛选，以针对性提升模型在代码调试、重构或安全规划等特定维度的效能。

背景与挑战

背景概述

在人工智能代码生成领域，合成数据驱动的指令微调正日益成为提升模型自主编程能力的关键路径。由知名研究团队开发的Royal_Ghost_Coder_500k数据集于2024年创建，旨在通过500,000条高质量的合成指令，解决代码生成模型在自我编写、自我调试、重构优化及离线安全规划等方面的核心挑战。该数据集以其独特的“自我进化”课程设计，覆盖了从基础代码生成到复杂代理规划的全链路能力，推动了代码大模型从单一任务向多维度、自主化能力的演进，在开源社区和工业界产生了广泛影响。

当前挑战

该数据集所解决的领域核心挑战在于：现有代码模型缺乏自主迭代与安全保障能力，难以在无人类干预下完成从开发到部署的全流程闭环。具体而言，挑战包括：1）模型需学会根据测试报错自动生成补丁进行自我调试，而非仅依赖人类标注的修复示例；2）实现代码的现代化重构（如类型注解迁移），同时保持功能等价性；3）在离线环境下进行安全的规划与决策，避免产生有害或越权的代码行为。在数据构建层面，挑战在于：合成数据需在500k规模下保持多样性，并避免模式崩塌；同时，需设计严谨的起源课程（genesis curriculum）来引导模型逐步掌握复杂技能，这对数据生成流程和验证机制提出了极高要求。

常用场景

经典使用场景

在代码智能与自动化编程的学术浪潮中，Royal_Ghost_Coder_500k数据集以其独特的合成指令设计，成为训练大语言模型执行复杂代码任务的经典资源。它主要被用于引导模型掌握自生成代码、自我调试、代码重构与性能优化等核心能力。研究者常借助该数据集中的指令-响应对，使模型学会根据自然语言描述自动生成功能性代码片段，并随后通过补丁与测试机制自动修正错误，从而模拟人类开发者‘编写-调试-迭代’的完整流程。这一闭环训练范式显著提升了模型在代码生成任务中的鲁棒性与自主纠错能力。

衍生相关工作

该数据集自发布以来，已催生出一系列具有影响力的衍生工作。在模型训练层面，研究者基于其指令格式构造了更细粒度的多轮调试对话数据集，用于微调代码大模型在交互式开发环境中的表现。在评估方法上，有工作将其自测试补丁机制抽象为自动化基准，用以衡量模型在不同调试难度下的渐进式修复成功率。此外，其‘安全门控’设计理念被后续工作拓展为分层奖励模型，用于训练具有内在安全约束的代码生成智能体。这些衍生研究不仅验证了原始数据集的设计价值，更在跨任务泛化、鲁棒性分析与人机协作等方向上开辟了新探索路径。

数据集最近研究