five

Sera-4.5A-Full-T1-v3-1000

收藏
Hugging Face2026-04-22 更新2026-04-23 收录
下载链接:
https://huggingface.co/datasets/laion/Sera-4.5A-Full-T1-v3-1000
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是 allenai/Sera-4.5A-Full-T1 的一个子集,名为 laion/Sera-4.5A-Full-T1-v3-1000。数据集规模为1,000行(完整数据集包含72,118行),格式为原始JSONL,采用OpenAI原生消息布局。数据集保留了原始字段(如messages、instance_id、rollout_patch、func_name、func_path、problem_statement、target_patch、docker_image),并添加了一个指向父数据集的source字段。每条助手消息包含一个原生的tool_calls数组(OpenAI工具调用格式)和一个用于逐消息损失掩码的train: bool标志。该数据集专为直接通过axolotl使用而设计,配置为type: chat_template、chat_template: chatml、message_field_training: train。采样方法为确定性随机,种子为42。
提供机构:
LAION eV
创建时间:
2026-04-22
原始信息汇总

数据集概述

基本信息

  • 数据集名称: laion/Sera-4.5A-Full-T1-v3-1000
  • 许可协议: apache-2.0
  • 任务类别: 文本生成
  • 标签: sft, agent, swe-bench, axolotl, openai-messages

数据来源与规模

  • 来源: 本数据集是 allenai/Sera-4.5A-Full-T1 的一个子集。
  • 规模: 包含 1,000 行数据(完整数据集为 72,118 行)。
  • 采样方法: 确定性随机采样,种子为 42,基于完整数据集的索引进行采样。

数据格式与内容

  • 格式: 原始 JSONL 格式,采用 OpenAI 原生消息布局。
  • 保留字段: 保留了原始数据集中的 messages(作为 JSON 字符串)、instance_idrollout_patchfunc_namefunc_pathproblem_statementtarget_patchdocker_image 字段。
  • 新增字段: 添加了指向父数据集的 source 字段。
  • 消息结构: 每条助手消息包含一个原生的 tool_calls 数组(OpenAI 工具调用格式)和一个用于逐条消息损失掩码的 train: bool 标志。这些内容被扁平化为 shareGPT 格式。

预期用途

  • 目标框架: 专为 axolotl 直接使用而设计。
  • 配置参数: 需配合 type: chat_templatechat_template: chatmlmessage_field_training: train 等设置使用。

使用示例 (axolotl 配置)

yaml datasets:

  • path: laion/Sera-4.5A-Full-T1-v3-1000 data_files:
    • sera-4.5a-full-t1_v3_1000.jsonl type: chat_template field_messages: messages ds_type: json message_field_training: train chat_template: chatml
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程智能体研究领域,Sera-4.5A-Full-T1-v3-1000数据集作为其父集allenai/Sera-4.5A-Full-T1的一个精心采样子集而构建。该子集通过确定性的随机采样方法生成,设定随机种子为42,并依据行索引从包含72,118条记录的完整数据集中选取了1,000条样本,确保了采样的可复现性与代表性。数据格式严格保留了原始的OpenAI原生消息布局,每条记录均以JSONL格式存储,不仅完整包含了原始的消息字段、实例标识、代码补丁、函数信息及问题陈述等关键元数据,还新增了指向父数据集的来源字段,为后续分析提供了清晰的溯源路径。
特点
该数据集的核心特征在于其专为智能体工具调用与监督微调任务而设计的高级数据结构。每条记录中的助手消息均直接嵌入了原生的`tool_calls`数组,严格遵循OpenAI的工具调用格式,避免了向ShareGPT等简化格式的转换,从而完整保留了复杂的交互逻辑。此外,每条消息均附带一个布尔类型的`train`标志,实现了在模型训练过程中对每条消息进行精细化的损失掩码控制。这种设计使得数据集能够无缝适配Axolotl等先进训练框架,通过指定聊天模板与训练字段,直接支持基于对话上下文的指令微调,为构建具备复杂工具使用能力的代码智能体提供了高质量、结构化的训练资源。
使用方法
在具体应用层面,该数据集主要面向使用Axolotl框架进行模型微调的研究者与开发者。使用方法清晰而直接:在Axolotl的配置文件中,将数据集路径指向本数据集,并指定对应的数据文件。关键配置包括将数据类型设置为`chat_template`,消息字段映射为`messages`,并指定训练标志字段为`train`,同时搭配使用`chatml`作为聊天模板。这一系列配置使得训练流程能够自动识别并利用数据集内嵌的工具调用结构和逐消息训练标志,高效地完成对语言模型在代码生成与工具使用场景下的监督微调,从而赋能智能体处理诸如SWE-bench所涵盖的软件工程问题。
背景与挑战
背景概述
Sera-4.5A-Full-T1-v3-1000数据集源于AllenAI机构开发的Sera-4.5A-Full-T1,作为其子集于近期发布,专注于文本生成领域,特别是针对智能体与软件工程任务的监督微调应用。该数据集以OpenAI原生消息格式构建,旨在支持代码修复与自动化编程等核心研究问题,通过整合SWE-bench等基准测试,推动了人工智能在软件开发辅助方向的发展,为模型训练提供了高质量、结构化的对话交互数据。
当前挑战
该数据集致力于解决软件工程中代码自动修复与智能体协作的复杂挑战,要求模型精准理解问题陈述并生成有效补丁,这涉及对代码语义的深层解析与动态环境适应。在构建过程中,挑战包括从大规模原始数据中提取并格式化消息序列,确保工具调用格式的标准化,以及通过随机采样保持数据代表性,同时维护损失掩码等训练元数据的完整性,以适配如Axolotl等先进训练框架的需求。
常用场景
经典使用场景
在软件工程与智能代理研究领域,Sera-4.5A-Full-T1-v3-1000数据集为指令微调提供了高质量的基准资源。该数据集源自Sera-4.5A-Full-T1,专注于代码生成与修复任务,其经典使用场景在于训练大型语言模型执行自动化软件工程操作。通过采用OpenAI原生消息格式,数据集保留了完整的工具调用序列与训练掩码标记,使得研究者能够直接利用axolotl框架进行高效的监督微调,从而优化模型在代码补全、错误修复等复杂任务上的表现。
衍生相关工作
围绕该数据集,研究社区已经衍生出多项经典工作。例如,基于axolotl框架的微调实践被广泛采纳,以探索不同模型架构在代码任务上的适应性。同时,结合SWE-bench等评估基准,研究者利用该数据集开发了更高效的代码修复代理,推动了智能软件工程工具的发展。这些工作不仅扩展了数据集的应用范围,也为后续的代码生成与代理研究提供了重要的方法论参考。
数据集最近研究
最新研究方向
在代码生成与智能体领域,Sera-4.5A-Full-T1-v3-1000数据集作为Sera-4.5A-Full-T1的子集,正推动着基于工具调用的指令微调研究。该数据集采用OpenAI原生消息格式,保留了完整的工具调用数组和逐消息训练标志,为Axolotl等训练框架提供了直接支持。前沿探索聚焦于如何利用此类结构化对话数据,提升模型在软件工程任务如SWE-bench中的实际表现,通过精准的损失掩码机制优化多轮交互的生成质量。相关热点事件包括开源社区对工具调用标准化格式的广泛采纳,这促进了智能体系统在复杂环境下的泛化能力,对自动化代码修复与智能编程助手的开发具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作