Sera-4.5A-Sympy-T2

Name: Sera-4.5A-Sympy-T2
Creator: Allen Institute for AI
Published: 2026-02-11 16:09:19
License: 暂无描述

Hugging Face2026-02-11 更新2026-02-12 收录

下载链接：

https://huggingface.co/datasets/allenai/Sera-4.5A-Sympy-T2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含25,397个轨迹，这些数据是在6个Sympy提交上使用GLM-4.5-Air作为教师模型进行SVG第二次 rollout 生成的，每个函数对应一个SVG运行。数据集仅针对 specialization rollouts（第二次 rollout）在0.5召回率下进行验证。数据模式包括：messages（生成的轨迹）、instance_id（轨迹ID）、rollout_patch（创建的代码库补丁）、func_name（从代码库中采样的函数名称）、func_path（采样函数的文件路径）以及line_level_recall（验证通过的阈值）。注意：需对messages列应用json.loads()进行加载。Sera-4.5A-Sympy-T2数据集遵循开放数据共享署名许可证v1.0 (ODC-By)，仅供研究和教育用途。

提供机构：

Allen Institute for AI

创建时间：

2026-02-11

搜集汇总

数据集介绍

构建方式

在软件工程与自动化代码修复领域，Sera-4.5A-Sympy-T2数据集的构建体现了基于强化学习与教师-学生框架的前沿方法。该数据集通过SVG（搜索、验证、生成）流程的第二轮滚动生成，具体以GLM-4.5-Air作为教师模型，在Sympy项目的六个提交上采样函数并运行轨迹生成。为确保数据质量，验证阶段采用了0.5召回率的阈值进行专业化滚动验证，最终汇集了25397条轨迹，每条轨迹对应一个独立函数的处理过程，涵盖了从函数采样到补丁生成的全链条信息。

使用方法

使用本数据集时，研究者需注意数据加载与处理的具体要求。轨迹信息存储于messages列中，需通过json.loads()方法解析以获取结构化内容。数据集适用于代码生成、程序修复、强化学习在软件工程中的应用等研究方向。用户可依据instance_id追踪轨迹，结合func_name与func_path定位原始代码上下文，并利用rollout_patch分析生成的补丁内容。线级召回指标则为评估修复准确性提供了参考基准，支持对模型性能进行细粒度分析。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，自动化代码生成与修复已成为提升开发效率的关键研究方向。Sera-4.5A-Sympy-T2数据集由相关研究团队于近期构建，其核心聚焦于利用大型语言模型作为教师智能体，通过轨迹生成与验证机制，探索在符号计算库Sympy特定提交上的代码补丁自动创建能力。该数据集旨在推动智能编程助手在真实代码库场景下的泛化与专业化性能，为代码语义理解与自动化软件维护提供重要的实证基础。

当前挑战

该数据集致力于应对自动化代码修复中高精度补丁生成的挑战，尤其在符号计算等专业领域，需确保生成代码的功能正确性与语义一致性。在构建过程中，研究团队面临轨迹数据规模与质量的平衡难题，需在有限召回率阈值下进行有效验证，同时保持生成轨迹的多样性与代表性。此外，数据模式中消息列的嵌套结构要求使用者额外进行解析处理，增加了数据访问与实验复现的复杂性。

常用场景

经典使用场景

在软件工程与代码生成领域，Sera-4.5A-Sympy-T2数据集为研究自动化代码修复与验证提供了关键资源。该数据集通过GLM-4.5-Air作为教师模型，在Sympy项目的六个提交上生成轨迹，专门用于训练和评估代码补丁生成系统。其典型应用场景包括模拟开发者在修复软件缺陷时的决策过程，帮助模型学习从代码函数采样到生成有效补丁的完整轨迹，从而推动智能编程助手的发展。

解决学术问题

该数据集主要解决了代码生成中轨迹学习与验证的学术挑战。通过提供大量带有验证阈值的生成轨迹，它使研究人员能够深入探究模型在特定召回率下的性能，优化代码补丁的准确性与可靠性。这有助于克服传统方法中补丁验证不足的局限，为自动化软件维护和代码质量提升提供了实证基础，促进了编程智能领域的理论进展与实践创新。

实际应用

在实际应用中，Sera-4.5A-Sympy-T2数据集可集成到软件开发工具链中，辅助自动化测试与调试流程。例如，企业可以利用该数据集训练模型，自动检测并修复开源库如Sympy中的代码错误，减少人工干预成本。此外，它还能增强持续集成系统，通过生成和验证补丁来提高软件发布的稳定性与安全性，适用于教育、科研及工业界的代码质量保障项目。

数据集最近研究