Sera-4.5A-Django-T2

Name: Sera-4.5A-Django-T2
Creator: Allen Institute for AI
Published: 2026-02-11 16:10:20
License: 暂无描述

Hugging Face2026-02-11 更新2026-02-12 收录

下载链接：

https://huggingface.co/datasets/allenai/Sera-4.5A-Django-T2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含21,900条轨迹数据，这些数据是通过在6个Django提交上使用GLM-4.5-Air作为教师模型进行SVG的第二次 rollout 生成的。每条轨迹对应一个函数的SVG运行。数据集仅针对 specialization rollouts（第二次 rollout）在0.5召回率下进行了验证。数据模式包括：'messages'（生成的轨迹）、'instance_id'（轨迹ID）、'rollout_patch'（创建的代码库补丁）、'func_name'（从代码库中采样的函数名称）、'func_path'（采样函数的文件路径）和'line_level_recall'（验证通过的阈值）。注意：需对'messages'列应用json.loads()进行加载。Sera-4.5A-Django-T2数据集遵循开放数据共享署名许可证v1.0（ODC-By），仅供研究和教育用途。

提供机构：

Allen Institute for AI

创建时间：

2026-02-11

搜集汇总

数据集介绍

构建方式

在软件工程与代码生成领域，Sera-4.5A-Django-T2数据集通过系统化的轨迹生成流程构建而成。该数据集基于六个Django代码提交版本，采用GLM-4.5-Air模型作为教师模型，执行了第二次专门化滚动生成。生成过程中，每个函数仅进行一次SVG运行，并在0.5召回率阈值下进行验证，最终形成了包含21900条轨迹的集合，每条轨迹均记录了从代码库中采样函数开始的完整生成路径。

特点

该数据集的核心特征体现在其结构化轨迹表示与验证机制上。每条轨迹数据均包含生成的消息序列、唯一实例标识、针对代码库创建的补丁、采样的函数名称及其文件路径，并标注了通过验证的线级召回阈值。数据以列式结构存储，其中消息列需经json.loads()解析方可加载，这种设计既确保了数据的机器可读性，又保留了原始生成过程的完整性，为代码生成与修复研究提供了细粒度的分析基础。

使用方法

研究人员在使用该数据集时，可首先加载数据并解析消息列以获取完整轨迹信息。通过实例标识与函数路径，能够追溯每条轨迹对应的原始代码上下文；结合生成的补丁与验证阈值，可深入分析模型在特定召回率下的代码生成与修复性能。数据集适用于代码自动生成、程序合成、软件测试等研究方向，使用时需遵循ODC-By许可协议，并参考相关的负责任使用指南。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，代码生成与自动修复任务正逐步从理论探索迈向实际应用。Sera-4.5A-Django-T2数据集应运而生，其创建源于对大规模代码轨迹数据的需求，旨在通过GLM-4.5-Air作为教师模型，在Django框架的六个提交版本上生成并验证代码补丁轨迹。该数据集由专业研究团队构建，核心研究问题聚焦于提升代码自动修复的准确性与泛化能力，通过结构化轨迹数据为模型训练与评估提供坚实基础，对推动智能编程助手与自动化软件维护工具的发展具有显著影响力。

当前挑战

该数据集致力于应对代码自动修复领域的核心挑战，即如何在复杂多变的代码上下文中精准生成语义正确且功能完备的补丁。具体而言，构建过程中需克服多重困难：一是确保生成轨迹的多样性与真实性，避免模型过拟合于特定代码模式；二是设计高效的验证机制，在0.5召回率阈值下平衡补丁质量与评估效率；三是处理代码库中函数采样与路径映射的复杂性，保证数据结构的完整性与可复用性。这些挑战共同构成了数据集在推动代码智能研究中的关键瓶颈。

常用场景

经典使用场景

在代码生成与自动化修复领域，Sera-4.5A-Django-T2数据集以其丰富的轨迹数据，为研究代码补全与错误修正算法提供了关键支持。该数据集通过GLM-4.5-Air模型作为教师，在Django框架的六个提交上生成大量轨迹，每一轨迹对应一个函数的完整处理过程，涵盖了从函数采样到补丁创建的完整流程。这使得研究人员能够深入分析代码生成模型的行为模式，评估其在不同验证阈值下的表现，进而优化模型在真实软件开发环境中的适用性。

实际应用

在实际软件开发中，Sera-4.5A-Django-T2数据集可应用于构建智能代码审查与自动化测试系统。基于其生成的轨迹与补丁数据，开发者能够训练模型识别代码中的潜在错误，并自动生成修复建议，从而提升代码质量与开发效率。该数据集尤其适用于大型开源项目如Django，帮助团队实现持续集成环境下的快速迭代，减少人工调试成本，推动软件工程向智能化、自动化方向演进。

衍生相关工作

围绕该数据集，学术界已衍生出多项经典研究，聚焦于代码生成模型的优化与评估方法。例如，基于轨迹数据的分析工作探索了模型在特定验证阈值下的行为一致性，而补丁生成研究则利用rollout_patch字段改进自动化修复算法。这些工作进一步推动了智能编程助手的发展，为代码合成、软件维护及教育工具提供了新的技术路径，丰富了自动化软件工程的研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集