Sera-4.6-Lite-47000
收藏Hugging Face2026-03-05 更新2026-03-06 收录
下载链接:
https://huggingface.co/datasets/allenai/Sera-4.6-Lite-47000
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自Sera-4.6-Lite-T1和Sera-4.6-Lite-T2的47,498个高质量样本。在32K上下文长度下,使用该数据集训练可以达到50.67% +/- 1.86%的开源SoTA性能,优于Devstral-Small-2和GLM-4.5-Air模型。数据集创建方法包括仅保留模型提交的训练样本,并按32K标记的截断比率进行过滤,阈值比率为0.88。数据集模式包含以下字段:messages(生成的轨迹)、instance_id(轨迹ID)、rollout_patch(创建的代码库补丁)、func_name(从代码库采样开始管道的函数名)、func_path(采样函数的文件路径)和source(数据来源)。注意:需对messages列应用json.loads()进行加载。该数据集采用Open Data Commons Attribution License v1.0 (ODC-By)许可,仅供研究和教育用途。
提供机构:
Allen Institute for AI
创建时间:
2026-03-05
原始信息汇总
Sera-4.6-Lite-47000 数据集概述
基本信息
- 数据集名称: Sera-4.6-Lite-47000
- 样本数量: 47,498 个高质量样本
- 数据来源: 来源于 Sera-4.6-Lite-T1 和 Sera-4.6-Lite-T2
- 许可证: Apache-2.0 许可证;同时注明遵循 Open Data Commons Attribution License v1.0 (ODC-By)
- 用途: 旨在用于研究和教育用途
性能表现
使用该数据集训练模型,在 SWE-Bench Verified 基准测试(上下文长度为 32K)上取得了 50.67% +/- 1.86% 的开源最先进(SoTA)性能,超越了 Devstral-Small-2 和 GLM-4.5-Air 模型。
构建方法
- 仅保留模型提交的训练样本。
- 在 32K 令牌的上下文长度下,根据截断比率进行过滤,直至达到 0.88 的阈值比率。
数据模式(Schema)
数据集包含以下列:
- messages: 生成的轨迹。注意:需对此列应用
json.loads()进行加载。 - instance_id: 轨迹的 ID。
- rollout_patch: 对代码库创建的补丁。
- func_name: 从代码库中采样以启动流程的函数名称。
- func_path: 采样函数所在的文件路径。
- source: 数据来源,取值为
Sera-4.6-Lite-T1或Sera-4.6-Lite-T2。
使用说明
- 使用
json.loads()函数加载messages列中的数据。 - 更多信息请参考相关的负责任使用指南。
搜集汇总
数据集介绍
构建方式
在软件工程与代码生成领域,高质量的训练数据是提升模型性能的关键。Sera-4.6-Lite-47000数据集的构建过程体现了严谨的数据筛选策略。该数据集从Sera-4.6-Lite-T1和Sera-4.6-Lite-T2两个来源中,精心选取了模型自身提交的训练样本。随后,基于32K令牌的上下文长度设定,通过计算截断比率进行过滤,仅保留比率达到0.88阈值的高质量样本,最终汇集了47498条数据。这一构建方法旨在确保数据的完整性与有效性,为模型训练提供了坚实的基石。
特点
该数据集的核心特点在于其卓越的质量与明确的结构化设计。在性能上,以其训练的模型在SWE-Bench Verified基准测试中取得了50.67%的平均成绩,展现出超越同类开源模型的竞争力。数据结构清晰,每条样本不仅包含模型生成的任务轨迹,还附有代码库的修改补丁、起始函数名称及其路径等元信息,并标注了原始数据来源。这种丰富的上下文信息与标注,为深入理解代码生成与修复任务提供了多维度的支持。
使用方法
对于研究人员和开发者而言,有效利用该数据集需遵循其特定的数据格式。数据集以表格形式组织,其中‘messages’列存储了核心的交互轨迹,需使用json.loads()函数进行解析以还原为结构化对象。其他列如‘instance_id’、‘rollout_patch’等则提供了辅助信息。用户可依据‘func_path’或‘source’等字段对数据进行筛选或分析,将其应用于代码大模型的指令微调、性能评估或特定软件工程问题的研究,从而推动开源模型在代码智能领域的发展。
背景与挑战
背景概述
在人工智能领域,代码生成与软件工程任务的自动化已成为前沿研究方向。Sera-4.6-Lite-47000数据集于近期由相关研究团队构建,旨在推动大型语言模型在代码补全与软件修复任务上的性能提升。该数据集聚焦于解决实际编程环境中的复杂问题,通过整合高质量的训练样本,为模型提供了丰富的代码轨迹与补丁信息。其核心研究问题涉及如何有效利用上下文信息生成准确的代码修改,从而提升模型在软件工程基准测试中的表现,对开源社区和自动化编程工具的发展产生了积极影响。
当前挑战
该数据集致力于应对软件工程中代码自动修复与生成的挑战,特别是在处理长上下文和多步骤代码修改任务时,模型需准确理解代码语义并生成可行补丁。构建过程中,研究人员面临样本质量筛选的难题,需通过截断比率等指标过滤低效数据,确保训练样本的可靠性与一致性。同时,数据集的规模与多样性平衡也是一项关键挑战,既要涵盖广泛的编程场景,又要避免噪声引入,以支撑模型在SWE-Bench等基准测试上达到先进性能。
常用场景
经典使用场景
在软件工程与代码智能领域,Sera-4.6-Lite-47000数据集为代码生成与修复任务提供了高质量的轨迹样本。该数据集通过精心筛选的模型提交训练样本,构建了包含函数路径、补丁生成等结构化信息的对话轨迹,常用于训练和评估大语言模型在代码理解与自动编程方面的能力。其核心应用场景聚焦于SWE-Bench等基准测试,助力模型在真实代码库环境中实现高效的代码修改与问题解决。
实际应用
在实际软件开发流程中,Sera-4.6-Lite-47000能够支撑智能编程助手、自动化代码审查与缺陷修复工具的开发。基于该数据集训练的模型可协助开发者快速定位代码错误、生成符合项目规范的补丁,从而减少人工调试时间,提升软件迭代效率。其应用延伸至教育领域,为编程教学与代码实践提供智能化的辅助学习资源。
衍生相关工作
围绕该数据集衍生的经典工作主要包括在SWE-Bench等基准上的性能优化研究,以及基于轨迹学习的代码生成模型改进。相关研究探索了长上下文建模、多轮对话轨迹利用等技术,进一步推动了如Devstral-Small-2、GLM-4.5-Air等模型在代码任务上的能力提升,并为开源社区提供了可复现的先进训练范式与评估标准。
以上内容由遇见数据集搜集并总结生成



