Sera-4.5A-Sphinx-T1

Name: Sera-4.5A-Sphinx-T1
Creator: Allen Institute for AI
Published: 2026-02-11 16:14:06
License: 暂无描述

Hugging Face2026-02-11 更新2026-02-12 收录

下载链接：

https://huggingface.co/datasets/allenai/Sera-4.5A-Sphinx-T1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含24,553条轨迹数据，是通过在6个Sphinx提交上首次运行SVG，并使用GLM-4.5-Air作为教师模型生成的。每条数据最多包含两次SVG运行轨迹。数据集字段包括：生成的轨迹消息（messages）、轨迹ID（instance_id）、对代码库创建的补丁（rollout_patch）、从代码库中采样的函数名称（func_name）以及采样函数所在的文件路径（func_path）。需要注意的是，messages列需使用json.loads()进行加载。Sera-4.5A-Sphinx-T1数据集遵循开放数据共享署名许可（ODC-By），仅供研究和教育用途。

提供机构：

Allen Institute for AI

创建时间：

2026-02-11

搜集汇总

数据集介绍

构建方式

在软件工程与代码生成领域，数据集的构建往往依赖于模拟真实开发环境中的迭代过程。Sera-4.5A-Sphinx-T1数据集通过采用GLM-4.5-Air作为教师模型，在六个Sphinx提交版本上执行首次SVG（假设为某种代码生成或验证流程）滚动生成，从而采集了24,553条轨迹。每条轨迹记录了从代码库中采样特定函数开始的完整流程，并包含生成的轨迹信息、创建的代码库补丁以及相关函数名称与路径，确保了数据源于实际代码演化场景。

特点

该数据集的核心特点在于其专注于代码生成轨迹的细粒度记录，每条数据不仅封装了消息形式的生成轨迹，还通过rollout_patch字段保留了代码变更的具体内容，这为分析代码修改模式提供了直接依据。数据覆盖了多个函数和文件路径，增强了多样性与代表性，同时严格的ODC-By许可协议确保了其在研究与教育用途中的合规性，为探索自动化代码补全与修复技术奠定了高质量基础。

使用方法

使用本数据集时，需注意messages列存储为JSON字符串格式，应通过json.loads()方法解析以获取结构化轨迹数据。研究人员可依据instance_id追踪独立轨迹，结合func_name与func_path分析特定函数上下文下的生成行为，并利用rollout_patch评估代码补丁的有效性。该数据集适用于训练或评估代码生成模型，支持从轨迹学习到补丁验证等多种任务，但须遵循许可协议，仅用于研究或教育目的。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，代码生成与自动修复技术正经历深刻变革。Sera-4.5A-Sphinx-T1数据集于近期发布，由研究团队利用GLM-4.5-Air作为教师模型，在Sphinx项目的六个提交版本上通过首次SVG（可能指某种代码生成或验证流程）滚动生成。该数据集包含24553条轨迹，每条轨迹记录了从代码库中采样函数开始的完整生成过程，核心研究问题聚焦于探索大规模语言模型在代码自动补全、迭代优化及补丁生成等任务中的行为模式与性能边界，为代码智能领域的模型训练与评估提供了关键数据支撑。

当前挑战

该数据集旨在应对代码生成与自动修复领域中模型泛化能力不足、多步骤推理困难等核心挑战。具体而言，如何确保生成轨迹在复杂代码上下文中保持语义一致性与功能正确性，以及如何有效建模代码变更的长期依赖关系，均是亟待突破的难点。在构建过程中，研究团队需克服从动态代码库中采样代表性函数的复杂性，并设计可靠流程以捕获多轮SVG滚动产生的异构轨迹数据，同时保证数据标注的准确性与结构规范性，这些技术障碍显著增加了数据集构建的难度与精细度要求。

常用场景

经典使用场景

在代码生成与自动化编程领域，Sera-4.5A-Sphinx-T1数据集以其包含的24553条轨迹数据，为研究智能体在真实代码库环境中的行为模式提供了宝贵资源。该数据集通过记录GLM-4.5-Air作为教师模型在Sphinx项目六个提交版本上的首次SVG（可能是某种代码生成或验证流程）滚动执行轨迹，典型地用于训练和评估代码生成模型在函数级别代码补全、修复及优化任务中的性能。每条轨迹不仅包含生成的消息序列，还关联了具体的函数名称、文件路径及生成的补丁，使得研究者能够深入分析模型在复杂代码上下文中的决策过程与输出质量。

衍生相关工作

围绕Sera-4.5A-Sphinx-T1数据集，已衍生出一系列聚焦于代码轨迹学习与智能体优化的经典研究工作。这些工作通常利用数据集中丰富的滚动执行信息，探索如何提升代码生成模型在真实项目环境中的决策稳定性与输出准确性。例如，部分研究基于轨迹数据训练强化学习代理，以优化代码补丁的生成策略；另一些工作则分析轨迹模式以设计更高效的代码验证或测试生成算法。这些衍生成果不仅深化了对代码智能体行为机制的理解，也推动了自动化编程工具在实用性、可扩展性方面的持续进步。

数据集最近研究