Sera-4.5A-Lite-T2
收藏Hugging Face2026-01-30 更新2026-02-02 收录
下载链接:
https://huggingface.co/datasets/allenai/Sera-4.5A-Lite-T2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含35615条轨迹数据,是通过在121个SWE-smith代码库上使用GLM-4.5-Air作为教师模型进行第二次SVG rollout生成的,每个函数包含一次SVG运行。其中16000个样本用于训练SERA-32B-GA模型。数据集Sera-4.5-Full-T2是该数据集的超集,每个函数包含三次SVG运行。数据字段包括:messages(生成的轨迹)、instance_id(轨迹ID)、rollout_patch(创建的代码库补丁)、func_name(采样函数的名称)、func_path(采样函数的文件路径)和line_level_recall(验证通过的阈值)。使用json.loads()加载messages列。该数据集遵循Open Data Commons Attribution License v1.0 (ODC-By)许可,仅用于研究和教育用途。
提供机构:
Allen Institute for AI
创建时间:
2026-01-27
搜集汇总
数据集介绍

构建方式
在软件工程智能化研究领域,数据集的构建质量直接关系到模型训练的有效性。Sera-4.5A-Lite-T2数据集通过系统化的轨迹生成流程构建而成,其核心方法是在121个SWE-smith代码库上,以GLM-4.5-Air模型作为教师模型,执行了第二次SVG(可能是某种搜索或验证生成过程)的滚动采样。针对每个函数仅进行一次SVG运行,从而收集了35,615条轨迹数据,确保了数据生成过程的一致性与可复现性。该数据集作为更大规模完整数据集的精简版本,专注于提供高质量的核心样本。
使用方法
对于致力于代码智能或程序合成的研究者而言,该数据集提供了可直接应用于模型训练与评估的标准化资源。使用者首先需加载数据集,并按照说明对消息列进行JSON解析,以获取完整的交互轨迹序列。数据中的实例标识符与函数路径可用于追踪样本来源,而生成的补丁与验证指标则为模型性能的定量分析奠定了基础。在具体应用中,例如训练类似SERA-32B-GA的模型时,可从中抽取16,000个样本作为训练集,利用其结构化的轨迹信息来优化模型的代码生成与迭代修复能力。
背景与挑战
背景概述
在软件工程与人工智能交叉领域,自动化代码修复与生成技术正逐步成为研究热点。Sera-4.5A-Lite-T2数据集由AllenAI等研究机构于近期创建,其核心研究问题聚焦于通过强化学习轨迹数据,训练智能体执行代码补丁生成任务。该数据集基于121个SWE-smith代码库,利用GLM-4.5-Air作为教师模型生成轨迹,旨在推动程序合成与自动化调试技术的发展,为代码智能体训练提供了高质量、规模化的轨迹数据支持,对提升软件维护效率与代码质量具有显著影响力。
当前挑战
该数据集致力于解决自动化代码修复领域的核心挑战,即如何让智能体在复杂代码上下文中精准生成语义正确且功能完备的补丁。构建过程中的主要困难包括:轨迹数据的多样性与真实性保障,需在多个代码库中平衡采样覆盖率;教师模型生成轨迹的质量控制,确保补丁符合语法与逻辑约束;以及数据标注与验证流程的设计,通过行级召回率等指标实现可靠评估。这些挑战共同指向了代码智能体训练中数据质量与泛化能力的平衡问题。
常用场景
经典使用场景
在软件工程与代码生成领域,Sera-4.5A-Lite-T2数据集为研究智能代码补全与程序修复提供了关键支持。该数据集包含大量由GLM-4.5-Air模型生成的代码轨迹,覆盖了121个代码库中的函数样本,常用于训练和评估基于序列到序列或强化学习的代码生成模型。研究者利用这些轨迹分析模型在真实代码环境中的行为模式,探索如何提升代码修改的准确性与效率,为自动化软件开发工具奠定数据基础。
解决学术问题
该数据集有效应对了代码生成研究中数据稀缺与质量不均的挑战。通过提供结构化且经过验证的代码轨迹,它支持研究者深入探讨程序语义理解、错误定位与修复等核心问题。其标注的补丁与召回阈值有助于量化模型性能,推动代码生成领域从简单补全向复杂程序转换任务演进,显著促进了智能编程辅助系统的理论发展与实验验证。
实际应用
在实际开发场景中,Sera-4.5A-Lite-T2可集成于集成开发环境或持续集成管道,实现自动化代码审查与错误修复。例如,基于该数据集训练的模型能够实时检测代码中的潜在缺陷,并生成可靠补丁,提升软件质量与开发效率。此类工具尤其适用于大规模代码库维护,帮助团队减少人工调试负担,加速迭代周期,体现了人工智能在软件工程中的实用价值。
数据集最近研究
最新研究方向
在软件工程与代码生成领域,Sera-4.5A-Lite-T2数据集以其丰富的轨迹数据,正推动着智能编程助手与自动化代码修复的前沿探索。该数据集通过GLM-4.5-Air作为教师模型生成轨迹,聚焦于代码库函数的迭代优化过程,为训练如SERA-32B-GA等大型语言模型提供了关键支持。当前研究热点集中于利用此类轨迹数据提升代码生成的准确性与可验证性,特别是在行级召回率验证方面,旨在增强模型对复杂代码逻辑的理解与修正能力。这一方向不仅加速了自动化软件测试与维护工具的发展,也为代码智能化的实际应用奠定了数据基础,对推动编程效率与软件质量提升具有深远意义。
以上内容由遇见数据集搜集并总结生成



