Sera-4.5A-Full-T1-v3-3160

Name: Sera-4.5A-Full-T1-v3-3160
Creator: LAION eV
Published: 2026-04-22 21:29:40
License: 暂无描述

Hugging Face2026-04-22 更新2026-04-23 收录

下载链接：

https://huggingface.co/datasets/laion/Sera-4.5A-Full-T1-v3-3160

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是allenai/Sera-4.5A-Full-T1的一个子集，名为laion/Sera-4.5A-Full-T1-v3-3160，包含3,160行数据（完整数据集为72,118行）。数据格式为原始JSONL，采用OpenAI原生消息布局，保留了原始字段如messages、instance_id、rollout_patch、func_name、func_path、problem_statement、target_patch和docker_image，并添加了一个指向父数据集的source字段。数据集适用于与axolotl一起使用，并包含具体的配置说明。采样方法为确定性随机，种子为42。

提供机构：

LAION eV

创建时间：

2026-04-22

原始信息汇总

数据集概述

基本信息

数据集名称: laion/Sera-4.5A-Full-T1-v3-3160
许可协议: Apache-2.0
任务类别: 文本生成
标签: SFT, Agent, SWE-Bench, Axolotl, OpenAI-messages

数据来源与规模

来源: 本数据集是 allenai/Sera-4.5A-Full-T1 的一个子集。
数据量: 3,160 行（完整数据集为 72,118 行）。
采样方法: 确定性随机采样，种子为 42，基于完整数据集的索引进行采样。

数据格式与内容

格式: 原始 JSONL 文件，采用 OpenAI 原生消息布局。
关键字段:
- messages: 原始的 JSON 字符串消息字段。
- instance_id
- rollout_patch
- func_name
- func_path
- problem_statement
- target_patch
- docker_image
- source: 指向父数据集的来源字段。
特点:
- 每个助手消息包含一个原生的 tool_calls 数组（OpenAI 工具调用格式）。
- 每个助手消息包含一个 train: bool 标志，用于逐条消息的损失掩码。
- 数据未扁平化为 shareGPT 格式。

预期用途

主要用途: 旨在通过 axolotl 直接使用，配置为 type: chat_template, chat_template: chatml, message_field_training: train。

使用示例（Axolotl 配置）

yaml datasets:

path: laion/Sera-4.5A-Full-T1-v3-3160 data_files:
- sera-4.5a-full-t1_v3_3160.jsonl type: chat_template field_messages: messages ds_type: json message_field_training: train chat_template: chatml

搜集汇总

数据集介绍

构建方式

在软件工程智能体研究领域，Sera-4.5A-Full-T1-v3-3160数据集作为原始数据集的子集，通过一种系统性的采样策略构建而成。其构建过程采用确定性随机采样方法，以固定种子值42为基准，从包含72,118条记录的完整数据集中，依据行索引精确选取了3,160条样本。数据格式严格保留了原始的OpenAI消息布局，每条记录不仅包含对话消息、实例标识及与代码修复任务相关的元数据，还新增了指向父数据集的来源字段，确保了数据溯源性与结构完整性。

使用方法

针对模型训练的实际应用，该数据集预设了与Axolotl训练框架的无缝集成路径。使用者需在配置中指定数据集路径、数据文件及关键字段，如将类型设置为聊天模板、消息字段指向‘messages’，并启用‘train’字段进行训练掩码。通过采用ChatML作为聊天模板，框架能够直接解析数据集中的工具调用结构与元数据，从而高效地开展针对代码生成与修复任务的监督微调，简化了从数据准备到模型训练的工作流程。

背景与挑战

背景概述

Sera-4.5A-Full-T1-v3-3160数据集作为allenai/Sera-4.5A-Full-T1的一个子集，专注于文本生成领域，特别是针对智能体任务和软件工程基准（如SWE-bench）的监督微调。该数据集由LAION机构基于Apache 2.0许可证发布，旨在支持基于OpenAI消息格式的对话模型训练，其核心研究问题涉及如何高效利用结构化工具调用数据来提升模型在代码修复和任务导向对话中的性能。通过集成axolotl框架的chat_template机制，该数据集为研究人员提供了可直接用于训练的高质量对话样本，推动了智能体系统在复杂问题解决能力方面的发展。

当前挑战

该数据集旨在解决软件工程中自动化代码修复的挑战，即模型需要准确理解问题陈述并生成有效的补丁，这要求处理代码语义的复杂性和多样性。在构建过程中，挑战包括从原始数据集中进行确定性随机采样以保持代表性，同时确保数据格式与OpenAI工具调用规范兼容，并添加每消息的训练标志以实现精细的损失掩码，这些步骤对数据一致性和模型训练效率提出了较高要求。

常用场景

经典使用场景

在软件工程领域，自动化代码修复与智能代理开发已成为研究热点。Sera-4.5A-Full-T1-v3-3160数据集作为Sera-4.5A-Full-T1的子集，专门用于监督式微调（SFT）任务，其经典使用场景聚焦于训练大型语言模型处理软件错误修复问题。数据集以OpenAI原生消息格式构建，包含工具调用数组和训练标志，能够直接集成到axolotl框架中，支持基于ChatML模板的对话模型训练，为模型学习代码补丁生成与问题解决提供了结构化、高质量的交互数据。

解决学术问题

该数据集旨在解决软件工程中自动化调试与代码修复的学术挑战。通过提供包含问题陈述、目标补丁及工具调用序列的标注数据，它支持研究如何利用语言模型理解复杂代码上下文并生成精确修复方案。其意义在于推动了智能软件代理的发展，降低了人工调试成本，并为评估模型在真实世界软件问题上的泛化能力建立了基准，对提升软件维护效率与可靠性具有深远影响。

实际应用

在实际应用中，Sera-4.5A-Full-T1-v3-3160数据集可赋能智能开发工具，如集成开发环境中的自动错误检测与修复插件。基于该数据集训练的模型能够协助开发者快速定位代码缺陷，生成合规补丁，从而加速软件迭代周期。此外，它在自动化测试、持续集成流水线以及教育平台中也有潜力，用于提供实时编程辅助与代码质量优化，提升软件开发的整体生产力。

数据集最近研究