Sera-4.5A-Sympy-T1
收藏Hugging Face2026-02-11 更新2026-02-12 收录
下载链接:
https://huggingface.co/datasets/allenai/Sera-4.5A-Sympy-T1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含27,227条轨迹数据,是通过在6个Sympy提交上使用GLM-4.5-Air作为教师模型进行SVG首次rollout生成的。数据集采用以下结构:messages字段存储生成的轨迹数据,instance_id为轨迹的唯一标识符,rollout_patch记录对代码库创建的补丁,func_name和func_path分别表示采样起始函数的名称和文件路径。使用注意事项:需对messages列应用json.loads()进行加载。本数据集采用Open Data Commons Attribution License v1.0 (ODC-By)许可协议,仅限研究和教育用途。
提供机构:
Allen Institute for AI
创建时间:
2026-02-11
搜集汇总
数据集介绍

构建方式
在软件工程与自动化代码生成领域,Sera-4.5A-Sympy-T1数据集的构建体现了基于强化学习轨迹的合成方法。该数据集通过SVG方法在Sympy项目的六个提交版本上进行首次滚动生成,利用GLM-4.5-Air模型作为教师模型,共采集了27227条轨迹数据。每条轨迹记录了从代码库中采样函数开始的完整生成过程,并包含生成的补丁、函数名称及文件路径等结构化信息,确保了数据来源的可靠性与生成逻辑的透明性。
特点
该数据集的核心特点在于其专注于数学符号计算库Sympy的代码变更轨迹,提供了从函数采样到补丁生成的全流程记录。数据以消息列存储序列化轨迹,需通过json.loads()解析,确保了信息的结构化与可扩展性。每条数据均标注了实例ID、生成的补丁、起始函数名称及路径,为研究代码生成、程序合成及强化学习在软件维护中的应用提供了高粒度、可复现的实证基础。
使用方法
使用本数据集时,研究人员可首先加载并解析消息列中的轨迹数据,以分析GLM-4.5-Air模型在Sympy代码库上的生成行为。该数据适用于训练或评估代码生成模型、研究强化学习在程序合成中的泛化能力,或探究自动化软件修复的机制。鉴于其采用ODC-By许可并限定于研究与教育用途,使用者应遵循相关指南,确保在合规范围内开展实验与创新。
背景与挑战
背景概述
在软件工程与人工智能交叉领域,自动化代码修复与生成已成为提升开发效率的关键研究方向。Sera-4.5A-Sympy-T1数据集应运而生,由研究团队于近期创建,旨在探索基于大语言模型的代码轨迹生成与补丁应用。该数据集聚焦于数学计算库Sympy的六个提交版本,利用GLM-4.5-Air作为教师模型,通过首次SVG(可能指某种轨迹生成方法)滚动生成了27227条轨迹数据。其核心研究问题在于如何通过轨迹学习实现代码的自动化修改与优化,为程序合成、智能编程助手等方向提供了宝贵的实证资源,推动了代码智能领域的算法评估与模型训练进程。
当前挑战
该数据集致力于应对代码自动修复与生成领域的核心挑战,即如何准确理解代码上下文并生成符合语义与语法规则的有效补丁。具体而言,挑战体现在模型需处理复杂的符号数学逻辑,确保生成的代码补丁在功能正确性与性能上均达到要求。在构建过程中,研究人员面临数据采集与标注的困难,包括从Sympy代码库中采样函数、生成高质量轨迹以及确保补丁的可用性与一致性。此外,轨迹数据的结构化存储与解析,如对messages列应用json.loads()以加载复杂嵌套信息,亦增加了数据处理与使用的技术复杂度。
常用场景
经典使用场景
在代码生成与自动修复领域,Sera-4.5A-Sympy-T1数据集以其丰富的轨迹数据,为研究智能体在符号计算库Sympy上的代码编辑行为提供了典型范例。该数据集通过记录GLM-4.5-Air作为教师模型在六个Sympy提交上的首次rollout过程,捕捉了从函数采样到补丁生成的全流程交互轨迹,常用于训练和评估代码生成模型在真实代码库环境下的决策序列与编辑能力。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在代码生成轨迹分析与编辑策略建模领域。研究者利用其轨迹序列训练序列预测模型,以复现或改进智能体在代码编辑任务中的决策过程;同时,基于补丁生成与函数路径信息,已有工作探索了代码变更的因果推理与可解释性分析,为代码修复模型的鲁棒性评估与泛化能力研究提供了重要数据支撑,进一步促进了自动化软件工程方法的发展。
数据集最近研究
最新研究方向
在代码生成与自动化软件工程领域,Sera-4.5A-Sympy-T1数据集以其基于GLM-4.5-Air模型生成的轨迹数据,正推动着智能编程助手与代码补全系统的前沿探索。该数据集聚焦于Sympy数学库的代码提交场景,为研究模型在真实代码库中的行为轨迹提供了丰富实例,促进了自动化代码修复与程序合成技术的深入发展。当前研究热点集中于利用此类轨迹数据训练更高效的强化学习代理,以提升代码生成的可控性与准确性,同时探索多模态代码理解与生成模型的协同优化,为开源软件生态的智能化维护注入新动力。
以上内容由遇见数据集搜集并总结生成



