Sera-4.5A-Sphinx-T2

Name: Sera-4.5A-Sphinx-T2
Creator: Allen Institute for AI
Published: 2026-02-11 16:07:29
License: 暂无描述

Hugging Face2026-02-11 更新2026-02-12 收录

下载链接：

https://huggingface.co/datasets/allenai/Sera-4.5A-Sphinx-T2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含12,676条轨迹数据，通过GLM-4.5-Air作为教师模型在6个Sphinx提交上进行的第二次SVG rollout生成，每个函数最多包含两次SVG运行。数据集专门针对0.5召回率的验证场景。数据结构包含以下字段：messages（生成的轨迹）、instance_id（轨迹ID）、rollout_patch（创建的代码补丁）、func_name（采样起始函数名）、func_path（函数文件路径）、line_level_recall（通过的验证阈值）。使用时需对messages列应用json.loads()进行加载。数据集采用开放数据共享署名许可（ODC-By），仅限研究和教育用途。

提供机构：

Allen Institute for AI

创建时间：

2026-02-11

搜集汇总

数据集介绍

构建方式

在软件工程与代码生成领域，Sera-4.5A-Sphinx-T2数据集的构建体现了基于强化学习与教师-学生框架的轨迹生成方法。该数据集包含12,676条轨迹，其生成过程依托于对Sphinx代码库中六个提交的第二次SVG（可能指某种代码生成或验证流程）滚动执行，并以GLM-4.5-Air模型作为教师模型进行指导。每条轨迹针对从代码库中采样的特定函数启动生成流程，且每个函数最多进行两次SVG运行，确保了生成过程的多样性与覆盖度。数据构建中特别采用了0.5召回率的验证阈值进行专业化滚动验证，以平衡生成质量与效率，最终形成的每条轨迹均关联了生成的代码补丁、函数路径及验证指标，为代码自动修复与生成研究提供了结构化数据基础。

特点

该数据集的核心特点在于其高度结构化与可验证的轨迹表示。每条数据均以消息列存储生成的轨迹序列，需通过json.loads()方法解析，从而支持复杂的序列数据加载。数据模式明确，除轨迹外，还包含实例ID、生成的代码补丁、采样的函数名称与路径，以及基于行级召回率的验证通过阈值，这些字段共同构成了一个自包含的代码生成实例。数据集专注于Sphinx这一特定代码库的提交，使得数据具有领域针对性，同时通过教师模型的引导与阈值验证，确保了生成轨迹在特定召回水平下的质量可控性，为研究代码生成、测试与修复的可靠性提供了细致标注的实证数据。

使用方法

使用本数据集时，研究者可首先加载数据并解析消息列中的轨迹信息，以获取完整的代码生成序列。数据集适用于训练或评估代码生成模型，特别是基于轨迹学习的强化学习或模仿学习框架。用户可依据实例ID追踪生成过程，结合函数路径与生成的补丁分析模型在特定代码库上的行为，并利用行级召回阈值评估生成结果的验证性能。数据集的授权基于ODC-By协议，强调研究与教育用途，建议遵循提供的负责任使用指南，确保在软件工程自动化、AI辅助编程等领域的应用中符合伦理与合规要求，从而推动代码智能技术的稳健发展。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，代码生成与自动化修复技术正逐步成为研究热点。Sera-4.5A-Sphinx-T2数据集由相关研究团队于近期构建，其核心目标在于探索基于大规模语言模型的代码轨迹生成与验证方法。该数据集聚焦于通过GLM-4.5-Air作为教师模型，在Sphinx代码库的六个提交版本上进行系统化轨迹采样，旨在推动自动化代码补丁生成与功能专业化验证的研究进程，为智能软件开发工具提供关键数据支撑。

当前挑战

该数据集致力于应对代码生成领域中轨迹验证与专业化补丁创建的复杂性挑战，具体体现为在多样化代码上下文中确保生成补丁的功能正确性与召回率稳定性。在构建过程中，研究人员需克服从动态代码库中采样函数轨迹的异构性，并设计有效的验证机制以在特定召回阈值下评估生成结果，同时需处理大规模轨迹数据的结构化存储与可复现性保障问题。

常用场景

经典使用场景

在软件工程与代码生成领域，Sera-4.5A-Sphinx-T2数据集为研究自动化代码补全与修复提供了关键资源。该数据集包含大量由GLM-4.5-Air模型生成的轨迹数据，特别适用于训练和评估基于强化学习的代码生成系统。研究者可利用这些轨迹分析模型在特定代码库上的行为模式，探索如何通过迭代优化提升代码生成质量，尤其在函数级别的代码修改与补全任务中展现出重要价值。

解决学术问题

该数据集有效应对了代码生成研究中数据稀缺与质量评估的挑战。通过提供经过验证的轨迹数据，它支持研究者深入探究代码生成模型的泛化能力与鲁棒性，特别是在面对复杂代码库时的表现。数据集中的召回率阈值信息为量化模型性能提供了客观依据，有助于推动代码生成领域的评估标准化，促进更可靠的自动化软件开发方法的发展。

衍生相关工作

围绕该数据集，学术界已衍生出多项经典研究，主要集中在代码生成模型的强化学习优化与轨迹分析领域。例如，基于SVG（Stochastic Value Gradients）方法的改进研究利用这些轨迹数据探索更高效的策略梯度算法。同时，结合GLM-4.5-Air等大型语言模型的师生学习框架也得到了进一步发展，推动了代码生成与软件工程自动化交叉领域的创新突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集