Sera-4.5A-Full-T1-v3
收藏Hugging Face2026-04-22 更新2026-04-23 收录
下载链接:
https://huggingface.co/datasets/laion/Sera-4.5A-Full-T1-v3
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是 allenai/Sera-4.5A-Full-T1 的一个子集,名为 laion/Sera-4.5A-Full-T1-v3。数据集包含72,118行数据,格式为原始JSONL,采用OpenAI原生消息布局。保留了原始字段如 messages(作为JSON字符串)、instance_id、rollout_patch、func_name、func_path、problem_statement、target_patch 和 docker_image,并添加了一个指向父数据集的 source 字段。每条助手消息包含一个原生的 tool_calls 数组(OpenAI工具调用格式)和一个用于逐消息损失掩码的 train: bool 标志。数据集专为与 axolotl 配合使用设计,需在配置中指定 type: chat_template、chat_template: chatml 和 message_field_training: train。采样方法为确定性随机,种子为42,按行索引从完整数据集中提取。
提供机构:
LAION eV
创建时间:
2026-04-22
原始信息汇总
数据集概述
基本信息
- 数据集名称: laion/Sera-4.5A-Full-T1-v3
- 许可证: apache-2.0
- 任务类别: 文本生成
- 标签: sft, agent, swe-bench, axolotl, openai-messages
数据来源与规模
- 来源: 本数据集是 allenai/Sera-4.5A-Full-T1 的一个子集。
- 数据量: 72,118 行(与完整数据集行数一致)。
- 采样方法: 确定性随机采样,种子为42,基于完整数据集的索引进行采样。
数据格式与内容
- 格式: 原始 JSONL 文件,采用 OpenAI 原生消息布局。
- 核心字段:
- 保留了原始字段:
messages(JSON字符串)、instance_id、rollout_patch、func_name、func_path、problem_statement、target_patch、docker_image。 - 新增
source字段,指向父数据集。
- 保留了原始字段:
- 消息结构特点:
- 每条助手消息包含一个原生的
tool_calls数组(OpenAI工具调用格式)。 - 每条消息包含一个
train: bool标志,用于逐条消息的损失掩码。 - 数据未扁平化为 shareGPT 格式。
- 每条助手消息包含一个原生的
预期用途
- 主要用途: 旨在通过 axolotl 直接使用,配置参数为
type: chat_template,chat_template: chatml,message_field_training: train。
使用示例(axolotl配置)
yaml datasets:
- path: laion/Sera-4.5A-Full-T1-v3
data_files:
- sera-4.5a-full-t1_v3_72118.jsonl type: chat_template field_messages: messages ds_type: json message_field_training: train chat_template: chatml
搜集汇总
数据集介绍

构建方式
在软件工程智能体研究领域,Sera-4.5A-Full-T1-v3数据集作为allenai/Sera-4.5A-Full-T1的一个精选子集,其构建过程体现了严谨的数据工程方法。该数据集通过确定性的随机采样策略生成,采用种子值为42的索引机制,从完整数据集中系统性地抽取了72,118条数据记录,确保了样本的可复现性与代表性。数据格式严格遵循OpenAI原生的消息布局,以JSONL文件形式存储,完整保留了原始的消息字段、实例标识、代码补丁、函数信息及问题陈述等关键元数据,并新增了指向父数据集的来源字段,为后续的模型训练提供了结构清晰、信息完备的基础素材。
特点
该数据集的核心特征在于其专为智能体与代码生成任务设计的结构化数据形态。每条数据记录中的助手消息均内嵌了符合OpenAI工具调用格式的`tool_calls`数组,以及用于逐条消息损失掩码的`train`布尔标志,这种设计避免了向ShareGPT格式的扁平化转换,保持了工具调用语义的完整性。数据集紧密集成SWE-bench基准测试环境,包含具体的函数路径、问题陈述、目标补丁和Docker镜像信息,使其特别适用于训练能够理解并执行复杂软件工程指令的智能体模型,为代码修复与自动化任务提供了高度情境化的训练样本。
使用方法
针对该数据集的应用,其使用方法与Axolotl训练框架深度适配,旨在简化训练流程。用户需在Axolotl的配置文件内指定数据集路径与对应的JSONL文件,将数据集类型设置为`chat_template`,并采用`chatml`作为聊天模板。关键配置包括通过`field_messages`参数指向原始的消息字段,以及利用`message_field_training`参数关联训练掩码标志。这种配置方式使得框架能够直接解析数据中的工具调用结构和训练标签,无需额外的预处理步骤,即可高效地用于监督微调训练,推动代码生成智能体模型的开发与性能评估。
背景与挑战
背景概述
Sera-4.5A-Full-T1-v3数据集源于自然语言处理领域对智能体与代码生成任务的深入研究,由AllenAI等机构于近年创建,旨在通过结构化对话数据推动指令微调技术的发展。该数据集作为Sera-4.5A-Full-T1的子集,专注于软件工程基准测试环境下的文本生成任务,其核心研究问题在于如何利用高质量对话交互数据训练模型以解决实际编程问题,如代码修复与功能实现。通过采用OpenAI消息格式与工具调用结构,它为智能体系统的训练提供了标准化数据基础,显著提升了模型在复杂任务中的泛化能力与可解释性,对自动化软件开发与AI辅助编程领域产生了重要影响。
当前挑战
在软件工程智能体领域,该数据集致力于应对代码生成与修复任务中模型泛化能力不足的挑战,具体体现在处理多样化编程语言、复杂代码上下文及动态环境交互时的准确性瓶颈。构建过程中,研究人员需克服数据标注一致性难题,确保对话消息与工具调用结构的精准对齐,同时维持大规模数据中实例ID、补丁信息及元数据的完整性。此外,数据格式转换与采样策略的设计需平衡效率与代表性,避免信息损失或偏差,这对数据集的可靠性与后续模型训练效果构成了关键考验。
常用场景
经典使用场景
在软件工程智能体研究领域,Sera-4.5A-Full-T1-v3数据集被广泛用于训练和评估代码生成与修复模型。其经典使用场景聚焦于自动化软件错误修复任务,模型通过分析问题陈述和代码上下文,生成符合目标补丁的解决方案。该数据集采用OpenAI消息格式,支持工具调用功能,使得智能体能够模拟真实开发环境中的交互过程,为代码理解和生成任务提供了结构化、可扩展的基准测试平台。
实际应用
在实际应用中,该数据集为构建智能编程工具提供了核心训练资源。基于其训练的模型可集成至开发环境,辅助程序员快速定位和修复代码缺陷,提升软件质量与开发效率。例如,在持续集成流程中,自动化代码审查系统可利用此类模型预先检测潜在错误,减少人工调试时间。此外,它还为教育领域中的编程教学工具提供了代码纠错与解释功能,增强了学习体验。
衍生相关工作
围绕该数据集衍生的经典工作主要包括基于SWE-bench的代码修复模型优化研究。许多研究利用其结构化消息格式开发了端到端的代码生成智能体,如结合强化学习改进补丁生成策略的工作。同时,该数据集也促进了工具调用机制在代码任务中的探索,推动了如Axolotl等训练框架的适配与扩展,为后续多模态代码理解和自动化测试生成研究奠定了基础。
以上内容由遇见数据集搜集并总结生成



