five

Sera-4.5A-Full-T1-v3-31600

收藏
Hugging Face2026-04-22 更新2026-04-23 收录
下载链接:
https://huggingface.co/datasets/laion/Sera-4.5A-Full-T1-v3-31600
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是 allenai/Sera-4.5A-Full-T1 的一个子集,名为 laion/Sera-4.5A-Full-T1-v3-31600,包含31,600行数据(完整数据集为72,118行)。数据格式为原始JSONL,采用OpenAI原生消息布局,保留了原始的 messages 字段(作为JSON字符串)、instance_id、rollout_patch、func_name、func_path、problem_statement、target_patch 和 docker_image 字段,并添加了一个指向父数据集的 source 字段。每条助手消息包含一个原生的 tool_calls 数组(OpenAI工具调用格式)和一个用于逐消息损失掩码的 train: bool 标志。该数据集专为与axolotl直接使用而设计,配置为 type: chat_template、chat_template: chatml、message_field_training: train。数据集适用于文本生成任务,特别是监督微调(SFT)和代理相关任务。
提供机构:
LAION eV
创建时间:
2026-04-22
原始信息汇总

数据集概述

基本信息

  • 数据集名称: laion/Sera-4.5A-Full-T1-v3-31600
  • 许可证: apache-2.0
  • 任务类别: 文本生成
  • 标签: sft, agent, swe-bench, axolotl, openai-messages

数据集来源与规模

  • 来源: 本数据集是 allenai/Sera-4.5A-Full-T1 的一个子集。
  • 规模: 包含 31,600 行数据(完整数据集为 72,118 行)。

数据格式与内容

  • 格式: 原始 JSONL 格式,采用 OpenAI 原生的消息布局。
  • 保留字段: 保留了原始的 messages 字段(作为 JSON 字符串)、instance_idrollout_patchfunc_namefunc_pathproblem_statementtarget_patchdocker_image
  • 新增字段: 添加了一个 source 字段,指向父数据集。
  • 消息结构: 每条助手消息都包含一个原生的 tool_calls 数组(OpenAI 工具调用格式)和一个用于逐条消息损失掩码的 train: bool 标志。这些内容没有被扁平化为 shareGPT 格式。

采样方法

  • 采样方式: 确定性随机采样。
  • 随机种子: 42。
  • 采样依据: 基于完整数据集的索引进行行采样。

预期用途

  • 目标框架: 专为通过 axolotl 直接使用而设计。
  • 配置要求: 需使用 type: chat_templatechat_template: chatmlmessage_field_training: train 配置。

使用示例 (axolotl 配置)

yaml datasets:

  • path: laion/Sera-4.5A-Full-T1-v3-31600 data_files:
    • sera-4.5a-full-t1_v3_31600.jsonl type: chat_template field_messages: messages ds_type: json message_field_training: train chat_template: chatml
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程智能体研究领域,Sera-4.5A-Full-T1-v3-31600数据集作为allenai/Sera-4.5A-Full-T1的一个子集,通过确定性随机采样方法构建而成。该方法以固定种子42为基准,从包含72,118条记录的完整数据集中,依据行索引系统性地抽取了31,600条样本,确保了采样的可复现性与数据分布的稳定性。数据集保留了原始的OpenAI消息布局格式,每条记录均包含消息内容、实例标识、代码补丁及问题陈述等关键字段,并新增了指向父数据集的来源信息,为后续模型训练提供了结构清晰且来源可溯的基础数据。
特点
该数据集的核心特征在于其专为工具调用与指令微调任务设计的结构化消息格式。每条助理消息均内嵌了符合OpenAI工具调用规范的原生工具调用数组,并配备了用于逐消息损失掩码的训练标志,这一设计避免了向ShareGPT格式的扁平化转换,从而保持了工具交互语义的完整性。数据集采用JSONL行格式存储,集成了问题描述、目标代码补丁及Docker环境镜像等多元上下文信息,特别适配于Axolotl训练框架的聊天模板配置,为构建具备代码生成与修复能力的智能体模型提供了高度专业化且即用型的数据支持。
使用方法
在实践应用中,该数据集可通过Axolotl训练框架直接加载与使用。用户需在配置文件中指定数据集的路径与文件,并设置聊天模板类型为ChatML,同时通过消息训练字段激活逐消息损失掩码功能。这种集成方式允许模型直接利用数据集中保留的工具调用结构与训练标志,无需进行额外的格式预处理,即可高效开展针对软件工程任务的监督微调训练,从而加速智能体在代码补丁生成与问题解决等场景中的能力优化与部署流程。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,自动化代码生成与修复已成为推动软件开发效率的关键研究方向。Sera-4.5A-Full-T1-v3-31600数据集作为AllenAI机构发布的Sera-4.5A-Full-T1数据集的子集,专注于支持指令微调与智能体任务,其构建依托于SWE-bench等基准测试框架,旨在训练模型理解和执行复杂的代码编辑与问题解决任务。该数据集采用OpenAI消息格式与工具调用结构,为研究者提供了高质量、结构化的对话数据,以促进代码生成模型在真实软件开发场景中的性能提升。
当前挑战
该数据集致力于应对软件工程中自动化代码修复与生成的挑战,其核心问题在于模型需要准确理解自然语言描述的问题陈述,并生成符合语法与功能要求的代码补丁。构建过程中的挑战包括从原始数据中提取并标准化复杂的工具调用序列,确保消息格式与训练框架(如Axolotl)的兼容性,以及通过确定性采样方法在保持数据多样性的同时控制子集规模。这些挑战要求数据构建者精细处理代码语义与对话逻辑的映射关系。
常用场景
经典使用场景
在软件工程与代码生成领域,Sera-4.5A-Full-T1-v3-31600数据集为指令微调提供了高质量的训练资源。其经典使用场景集中于利用OpenAI原生消息格式,结合工具调用功能,训练智能代理完成代码修复与程序生成任务。通过axolotl框架的直接集成,研究者能够高效构建对话模型,模拟真实开发环境中的交互过程,从而提升模型在软件问题解决方面的能力。
解决学术问题
该数据集有效解决了智能代理在代码生成与软件维护任务中缺乏结构化、可扩展训练数据的学术难题。它通过提供包含问题陈述、目标补丁及工具调用信息的标注样本,支持模型学习复杂编程逻辑与错误修复策略。这不仅促进了代码生成模型的性能评估标准化,还为软件工程自动化研究提供了可靠的基准测试平台,推动了智能编程助手领域的方法创新。
衍生相关工作
围绕该数据集衍生的经典工作包括基于SWE-bench的代码修复模型优化研究,以及利用工具调用机制增强智能代理交互能力的探索。多项研究借鉴其消息格式与训练标志设计,开发了更高效的指令微调框架。这些工作进一步扩展了数据集在跨领域代码生成任务中的应用,为开源社区贡献了可复现的实验方案与模型架构。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作