SE-BENCH

Name: SE-BENCH
Creator: 清华大学
Published: 2026-02-05 01:58:32
License: 暂无描述

arXiv2026-02-05 更新2026-02-07 收录

下载链接：

https://github.com/thunlp/SE-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

SE-BENCH是由清华大学研究团队构建的基准测试数据集，旨在评估智能体通过知识内化实现自我进化的能力。该数据集包含1,417条经过严格筛选的编程任务，其中训练集718条、测试集699条，数据来源于对NumPy库函数名及文档的系统化混淆重构。通过将标准NumPy函数映射为随机生成的伪新API（如numpy.mean→zwc.kocito），并配套生成算法简单的编码问题，确保任务在掌握新API文档后具有可解性。数据集设计聚焦三大特性：无先验知识则零概率求解、掌握文档则任务可解、需组合函数以测试泛化能力。其核心应用领域为验证AI模型在封闭训练环境下对新知识的压缩存储与迁移能力，为自演进智能体的研究提供标准化诊断工具。

SE-BENCH is a benchmark dataset developed by the research team from Tsinghua University, aiming to evaluate the capability of AI Agents to achieve self-evolution through knowledge internalization. This dataset contains 1,417 strictly curated programming tasks, including 718 training instances and 699 test instances, which are derived from the systematic obfuscation and restructuring of NumPy library function names and their official documentation. By mapping standard NumPy functions to randomly generated pseudo-new APIs (e.g., numpy.mean → zwc.kocito) and generating straightforward algorithmic coding problems alongside, the tasks are guaranteed to be solvable once the new API documentation is mastered. The dataset is designed with three core characteristics: zero probability of being solved without prior knowledge, solvability upon mastery of the documentation, and the requirement of function composition to test generalization capabilities. Its core application lies in verifying the ability of AI models to compress, store and transfer new knowledge within a closed training environment, thus providing a standardized diagnostic tool for research on self-evolving AI Agents.

提供机构：

清华大学

创建时间：

2026-02-05

原始信息汇总

SE-Bench 数据集概述

数据集基本信息

数据集名称: SE-Bench
核心目标: 诊断并衡量智能体对新知识的内化能力，这是实现真正自我演进的基础能力。
托管平台: Hugging Face Datasets
访问地址: https://huggingface.co/datasets/jintailin/SE-Bench

数据集内容与结构

数据集包含训练集和测试集，用于模拟知识内化的学习与评估过程。

数据文件

通过 load_datasets.py 脚本下载后，本地生成的文件结构如下：

路径	描述	用途
`datasets/train/api_doc.jsonl`	`zwc` 软件包的 API 文档	训练材料
`datasets/train/train.jsonl`	训练问题	训练材料
`datasets/test/single_test.jsonl`	单函数问题	评估
`datasets/test/multiple_test.jsonl`	多函数组合问题	评估

使用协议

训练模型或智能体时，仅能使用 datasets/train/ 目录下提供的信息。
在 datasets/test/ 中的问题上进行评估时，不能访问 API 文档。
该协议旨在测试模型是否真正内化了 API 知识。

数据加载方式

可通过 Hugging Face datasets 库加载。

python from datasets import load_dataset

加载训练集

dataset = load_dataset("jintailin/SE-Bench", "train")

数据位于 dataset[train]

加载单函数测试集

dataset = load_dataset("jintailin/SE-Bench", "single_test")

数据位于 dataset[train]

加载多函数测试集

dataset = load_dataset("jintailin/SE-Bench", "multiple_test")

数据位于 dataset[train]

评估流程

评估阶段需要构建 Docker 沙箱以安全执行代码，并筛选正确的推理轨迹。

自定义结果评估格式

如需评估自定义模型输出，需将结果格式化为 JSONL 文件，每行字典应包含以下键：

键	描述
`query`	数据集中的原始问题。
`response`	模型的生成内容，包含包裹在 python 块中的执行代码及推理过程。
`test_cases`	数据集中的原始测试用例。格式：`[{"input":..., "output":...}, ...]`。
`right_exe_result`	数据集中的原始真实可执行结果字符串。

搜集汇总

数据集介绍

构建方式

在人工智能领域，评估智能体自我进化的核心能力——知识内化，面临先验知识纠缠与推理复杂性交织的挑战。SE-BENCH通过系统化的知识混淆机制构建了一个诊断性环境，其构建过程分为三个阶段：混淆阶段选取NumPy库的268个核心函数，将其映射为随机生成的、无意义的标识符（如numpy.mean → zwc.kocito），并重写API文档以描述一个全新的伪包ZWC；生成阶段利用Claude-4.5-sonnet模型基于原始NumPy函数生成简单的单函数任务与需要组合多个函数的复杂任务；过滤阶段则采用严格的共识过滤协议，由三个前沿大模型独立验证每个任务的正确性与可解性，确保任务在拥有新API文档时是算法上平凡的，从而纯净地隔离出知识内化能力。

使用方法

SE-BENCH旨在严谨评估智能体将外部知识内化为自身参数化记忆的能力，其使用遵循明确的阶段协议。在训练阶段，智能体可以访问训练集任务及其对应的ZWC API文档，通过实践、记忆或参数更新来学习新知识。至关重要的是，研究揭示了“闭卷训练”的关键性，即在参数更新时移除上下文中的文档，强制模型将知识压缩至权重中，这比标准的“开卷”监督微调更能促进真正的内化。在测试阶段，智能体仅能获得问题描述，必须完全依赖训练阶段内化的知识来解决问题。评估采用严格的抽象语法树验证协议，不仅检查输出正确性，还确保解决方案严格遵守仅使用ZWC API、禁止导入原始NumPy的约束，从而精准度量内化成效。

背景与挑战

背景概述

SE-BENCH是由清华大学研究团队于2026年提出的一个诊断性基准测试，旨在评估人工智能代理在知识内化过程中的自我进化能力。该数据集通过系统性地混淆NumPy库及其API文档，构建了一个伪新颖的编程包，从而创建了一个纯净的实验环境，以解决现有评估中存在的先验知识纠缠和推理复杂性纠缠两大障碍。SE-BENCH的核心研究问题聚焦于如何精确测量代理从经验中学习并内化新知识的能力，这一能力被视为实现人工通用智能的关键前提。该数据集的推出为自我进化代理社区提供了一个严格的诊断平台，推动了知识内化机制的基础研究。

当前挑战

SE-BENCH旨在解决的领域问题是知识内化能力的评估，其挑战在于如何设计一个能够清晰区分代理是否真正内化了新知识的测试环境。具体而言，该数据集面临的挑战包括：确保任务在拥有新API文档时变得微不足道，而在没有文档时完全无法解决，从而消除先验知识泄漏的干扰；以及构建过程中需要实现高度可靠的混淆机制，防止模型通过猜测或记忆原始NumPy库来绕过测试。此外，数据集的构建还需保证任务的组合泛化性，以评估代理超越简单记忆的深层学习能力。

常用场景

经典使用场景

在自进化智能体研究领域，SE-BENCH 提供了一个高度受控的诊断环境，用于评估模型对全新知识的内部化能力。其经典使用场景是模拟软件工程师学习陌生编程库的过程：研究者在训练阶段向智能体提供经过混淆处理的 NumPy 库文档（函数名被随机标识符替换），要求其通过监督微调或强化学习掌握 API 用法；在测试阶段则移除所有文档支持，仅提供简单的编程问题，检验智能体能否凭借已内化的知识独立完成任务。这种“训练时有文档、测试时无文档”的范式，精准剥离了知识记忆与推理复杂度之间的纠缠，为衡量自进化核心机制提供了纯净的测量基准。

解决学术问题

SE-BENCH 主要解决了自进化研究中两个长期存在的学术难题：先验知识纠缠与推理复杂度纠缠。通过系统性的 API 混淆技术，该数据集确保了测试任务在缺乏新知识时绝对无法完成，而在掌握知识后则变得算法平凡，从而清晰地区分了模型是依靠预训练记忆还是真正内化了新经验。这一设计使得研究者能够定量评估不同训练范式（如监督微调、强化学习）在知识内部化效率上的差异，并揭示了“开卷训练悖论”——训练时提供参考文档反而会抑制长期记忆形成，而“闭卷训练”才能迫使模型将外部逻辑压缩至权重中。这些发现为理解自进化的微观机制提供了关键实证依据。

实际应用

SE-BENCH 的实际应用场景主要集中于智能体持续学习系统的开发与优化。在自动化编程助手、自适应工具使用代理等现实系统中，智能体需要不断吸收新发布的软件库或 API 更新，并将其转化为持久可用的技能。该数据集为这类系统的训练协议设计提供了重要启示：例如，在开发能够学习用户私有代码库的智能编程伙伴时，应采用“闭卷”训练策略以促进知识固化；在构建自演化的机器人任务规划器时，需谨慎使用标准强化学习算法，因其裁剪机制可能阻碍新概念的内部化。此外，数据集揭示的自洽学习可行性表明，模型能够从自身生成的噪声数据中提炼知识，为降低对人工标注数据的依赖提供了新路径。

数据集最近研究