Self-Execution Benchmark

Name: Self-Execution Benchmark
Creator: 以色列阿里尔大学计算机科学学院
Published: 2025-08-17 15:57:58
License: 暂无描述

arXiv2025-08-17 更新2025-08-22 收录

下载链接：

https://github.com/Kovah/Taboo-Data/tree/main/src/data/en

下载链接

链接失效反馈

官方服务：

资源简介：

Self-Execution Benchmark是一个评估大型语言模型（LLMs）自我执行能力的数据集，它通过一系列任务来测试模型能否预测自身输出的属性，如问题的难度、是否会拒绝回答、可能会产生的关联等。该数据集由以色列阿里尔大学计算机科学学院的研究团队创建，旨在解决LLMs缺乏自我执行能力的局限性问题。

The Self-Execution Benchmark is a dataset designed to evaluate the self-execution capabilities of large language models (LLMs). It utilizes a series of tasks to test whether a model can predict the attributes of its own outputs, such as the difficulty of the input question, whether it will refuse to answer, and potential associations it may generate, among others. This dataset was created by a research team from the School of Computer Science at Ariel University in Israel, aiming to address the limitation that LLMs lack self-execution capabilities.

提供机构：

以色列阿里尔大学计算机科学学院

创建时间：

2025-08-17

搜集汇总

数据集介绍

构建方式

Self-Execution Benchmark的构建基于三个核心实验设计：关联测试采用Taboo数据集评估模型对自身词汇联想能力的预测；限制识别测试使用约1000个多样化问题集，涵盖允许与禁止回答的内容，通过多会话对比模型对自身输出限制的认知；难度评估测试则从MMLU基准中随机选取多领域问题，要求模型预测自身回答的准确性与资源消耗。所有实验均通过严格的多轮会话隔离机制确保模型无法依赖记忆，从而纯粹测试其内在自执行推理能力。

使用方法

研究人员可通过加载标准化提示模板与评估脚本来使用该数据集，每个实验需严格隔离模型会话以避免信息泄漏。对于关联测试，需先获取模型对目标词的联想列表，再在独立会话中测试其预测准确性；限制识别测试要求分别执行问题回答、拒绝预测和输出验证三阶段流程；难度评估则需对比模型预测的排序与真实性能指标。评估时需记录格式合规性错误，并使用提供的Rasch模型工具进行跨基准能力对标分析，以揭示自执行能力与通用性能的相关性。

背景与挑战

背景概述

自我执行基准（Self-Execution Benchmark）由以色列阿里尔大学计算机科学学院的Elon Ezra、Ariel Weizman和Amos Azaria研究团队于2025年提出，旨在探索大型语言模型（LLMs）对自身输出特性的预测能力。该基准突破了传统评估范式，不再局限于测试模型的知识储备或推理能力，而是聚焦于模型能否准确预测其响应中的关键属性，如问题难度评估、拒绝回答概率以及关联词生成倾向等。这一创新性研究框架揭示了LLMs在自我认知层面的本质局限，为理解模型内部表征机制提供了新的视角。

当前挑战

该基准核心挑战在于解决LLMs缺乏自我执行能力导致的自我认知缺陷问题。具体表现为：模型难以准确预测自身对特定问题的响应内容、无法可靠评估问题难度层级、且对敏感话题的自我限制认知存在显著偏差。构建过程中的技术挑战包括：设计跨会话的对比实验框架以避免记忆干扰、建立可量化的自我预测评估指标，以及确保测试问题在语义复杂度和领域覆盖度的多样性。实验结果表明，即使最先进的LLMs在该基准上的表现也接近随机基线，且模型规模扩大与性能提升无必然关联。

常用场景

解决学术问题

该基准有效解决了LLMs自我认知研究中的核心问题：如何量化评估模型对自身行为的预测准确性。通过设计脱离实际执行的预测任务，它揭示了模型在缺乏自我执行能力时的内在局限性。实验结果表明，即使最先进的模型在预测自身关联词汇、拒绝回答概率和问题难度方面表现接近随机水平，这表明当前LLMs在自我表征方面存在根本性缺陷，为改进模型架构提供了重要方向。

实际应用

在实际应用层面，该基准为AI安全评估和模型对齐提供了重要工具。通过测试模型对敏感话题自我限制的识别能力，可评估安全防护机制的有效性。在教育领域，该基准能帮助开发更精准的自适应学习系统，使模型能够准确评估自身对特定问题的掌握程度。此外，在对话系统设计中，这一基准有助于构建更透明、可预测的AI交互体验。

数据集最近研究