Sera-4.6-Lite-47000

Name: Sera-4.6-Lite-47000
Creator: Allen Institute for AI
Published: 2026-03-05 14:30:41
License: 暂无描述

Hugging Face2026-03-05 更新2026-03-06 收录

下载链接：

https://huggingface.co/datasets/allenai/Sera-4.6-Lite-47000

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自Sera-4.6-Lite-T1和Sera-4.6-Lite-T2的47,498个高质量样本。在32K上下文长度下，使用该数据集训练可以达到50.67% +/- 1.86%的开源SoTA性能，优于Devstral-Small-2和GLM-4.5-Air模型。数据集创建方法包括仅保留模型提交的训练样本，并按32K标记的截断比率进行过滤，阈值比率为0.88。数据集模式包含以下字段：messages（生成的轨迹）、instance_id（轨迹ID）、rollout_patch（创建的代码库补丁）、func_name（从代码库采样开始管道的函数名）、func_path（采样函数的文件路径）和source（数据来源）。注意：需对messages列应用json.loads()进行加载。该数据集采用Open Data Commons Attribution License v1.0 (ODC-By)许可，仅供研究和教育用途。

提供机构：

Allen Institute for AI

创建时间：

2026-03-05

原始信息汇总

Sera-4.6-Lite-47000 数据集概述

基本信息

数据集名称: Sera-4.6-Lite-47000
样本数量: 47,498 个高质量样本
数据来源: 来源于 Sera-4.6-Lite-T1 和 Sera-4.6-Lite-T2
许可证: Apache-2.0 许可证；同时注明遵循 Open Data Commons Attribution License v1.0 (ODC-By)
用途: 旨在用于研究和教育用途

性能表现

使用该数据集训练模型，在 SWE-Bench Verified 基准测试（上下文长度为 32K）上取得了 50.67% +/- 1.86% 的开源最先进（SoTA）性能，超越了 Devstral-Small-2 和 GLM-4.5-Air 模型。

构建方法

仅保留模型提交的训练样本。
在 32K 令牌的上下文长度下，根据截断比率进行过滤，直至达到 0.88 的阈值比率。

数据模式（Schema）

数据集包含以下列：

messages: 生成的轨迹。注意：需对此列应用 json.loads() 进行加载。
instance_id: 轨迹的 ID。
rollout_patch: 对代码库创建的补丁。
func_name: 从代码库中采样以启动流程的函数名称。
func_path: 采样函数所在的文件路径。
source: 数据来源，取值为 Sera-4.6-Lite-T1 或 Sera-4.6-Lite-T2。

使用说明

使用 json.loads() 函数加载 messages 列中的数据。
更多信息请参考相关的负责任使用指南。

搜集汇总

数据集介绍

构建方式

在软件工程与代码生成领域，高质量的训练数据是提升模型性能的关键。Sera-4.6-Lite-47000数据集的构建过程体现了严谨的数据筛选策略。该数据集从Sera-4.6-Lite-T1和Sera-4.6-Lite-T2两个来源中，精心选取了模型自身提交的训练样本。随后，基于32K令牌的上下文长度设定，通过计算截断比率进行过滤，仅保留比率达到0.88阈值的高质量样本，最终汇集了47498条数据。这一构建方法旨在确保数据的完整性与有效性，为模型训练提供了坚实的基石。

特点

该数据集的核心特点在于其卓越的质量与明确的结构化设计。在性能上，以其训练的模型在SWE-Bench Verified基准测试中取得了50.67%的平均成绩，展现出超越同类开源模型的竞争力。数据结构清晰，每条样本不仅包含模型生成的任务轨迹，还附有代码库的修改补丁、起始函数名称及其路径等元信息，并标注了原始数据来源。这种丰富的上下文信息与标注，为深入理解代码生成与修复任务提供了多维度的支持。

使用方法

对于研究人员和开发者而言，有效利用该数据集需遵循其特定的数据格式。数据集以表格形式组织，其中‘messages’列存储了核心的交互轨迹，需使用json.loads()函数进行解析以还原为结构化对象。其他列如‘instance_id’、‘rollout_patch’等则提供了辅助信息。用户可依据‘func_path’或‘source’等字段对数据进行筛选或分析，将其应用于代码大模型的指令微调、性能评估或特定软件工程问题的研究，从而推动开源模型在代码智能领域的发展。

背景与挑战

背景概述

在人工智能领域，代码生成与软件工程任务的自动化已成为前沿研究方向。Sera-4.6-Lite-47000数据集于近期由相关研究团队构建，旨在推动大型语言模型在代码补全与软件修复任务上的性能提升。该数据集聚焦于解决实际编程环境中的复杂问题，通过整合高质量的训练样本，为模型提供了丰富的代码轨迹与补丁信息。其核心研究问题涉及如何有效利用上下文信息生成准确的代码修改，从而提升模型在软件工程基准测试中的表现，对开源社区和自动化编程工具的发展产生了积极影响。

当前挑战

该数据集致力于应对软件工程中代码自动修复与生成的挑战，特别是在处理长上下文和多步骤代码修改任务时，模型需准确理解代码语义并生成可行补丁。构建过程中，研究人员面临样本质量筛选的难题，需通过截断比率等指标过滤低效数据，确保训练样本的可靠性与一致性。同时，数据集的规模与多样性平衡也是一项关键挑战，既要涵盖广泛的编程场景，又要避免噪声引入，以支撑模型在SWE-Bench等基准测试上达到先进性能。

常用场景

经典使用场景

在软件工程与代码智能领域，Sera-4.6-Lite-47000数据集为代码生成与修复任务提供了高质量的轨迹样本。该数据集通过精心筛选的模型提交训练样本，构建了包含函数路径、补丁生成等结构化信息的对话轨迹，常用于训练和评估大语言模型在代码理解与自动编程方面的能力。其核心应用场景聚焦于SWE-Bench等基准测试，助力模型在真实代码库环境中实现高效的代码修改与问题解决。

实际应用

在实际软件开发流程中，Sera-4.6-Lite-47000能够支撑智能编程助手、自动化代码审查与缺陷修复工具的开发。基于该数据集训练的模型可协助开发者快速定位代码错误、生成符合项目规范的补丁，从而减少人工调试时间，提升软件迭代效率。其应用延伸至教育领域，为编程教学与代码实践提供智能化的辅助学习资源。

衍生相关工作

围绕该数据集衍生的经典工作主要包括在SWE-Bench等基准上的性能优化研究，以及基于轨迹学习的代码生成模型改进。相关研究探索了长上下文建模、多轮对话轨迹利用等技术，进一步推动了如Devstral-Small-2、GLM-4.5-Air等模型在代码任务上的能力提升，并为开源社区提供了可复现的先进训练范式与评估标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集