PLSemanticsBench

github2025-10-08 更新2025-10-10 收录

下载链接：

https://github.com/EngineeringSoftware/PLSemanticsBench

下载链接

链接失效反馈

官方服务：

资源简介：

PLSemanticsBench是第一个用于评估LLMs作为编程语言解释器的基准测试。它引入了三个评估任务：预测最终程序状态、预测评估程序所需的语义规则序列、预测程序的逐步执行。该基准测试托管在HuggingFace平台上。

PLSemanticsBench is the first benchmark for evaluating Large Language Models (LLMs) as programming language interpreters. It introduces three evaluation tasks: predicting the final program state, predicting the sequence of semantic rules required for program evaluation, and predicting the step-by-step execution of the program. This benchmark is hosted on the Hugging Face platform.

创建时间：

2025-10-07

原始信息汇总

PLSemanticsBench 数据集概述

数据集简介

PLSemanticsBench是首个用于评估大型语言模型作为编程语言解释器的基准测试。该基准包含三个核心评估任务，旨在系统评估LLM在程序语义理解方面的能力。

核心任务

PredState（最终程序状态预测）

预测程序的最终执行状态

PredRule（语义规则预测）

预测评估程序所需的语义规则有序序列

PredTrace（执行轨迹预测）

预测程序的逐步执行过程

数据集结构

数据集划分

数据集基于以下维度进行组织：

任务类型（PredState、PredRule、PredTrace）
语义类型（标准语义、非标准语义、无语义）
形式化方法（K语义、SOS）
数据来源（人工编写、LLM翻译、模糊生成）

数据示例

数据样本包含以下关键字段：

程序代码
语法定义
语义描述
变异程序（如适用）
变异模式
执行轨迹
真实标签

访问方式

HuggingFace数据集

数据集托管在HuggingFace平台：https://huggingface.co/datasets/EngineeringSoftware/PLSemanticsBench

加载示例

python from datasets import load_dataset predstate_IMP_K_uk_human_written = load_dataset("EngineeringSoftware/PLSemanticsBench", name="predstate-IMP-K-uk-human-written")

评估框架

核心组件

BaseRunner：基础运行器接口
GPTRunner：OpenAI模型实现
OllamaRunner：Ollama模型实现
LLMEvaluator：评估器

评估指标

准确率（accuracy）
格式错误计数（malformed-count）

技术特性

支持语言

IMP编程语言

语义形式化

K语义形式化
SOS（结构化操作语义）形式化

引用信息

bibtex @article{ThimmaiahETAL25PLSemanticsBench, title={PLSemanticsBench: Large Language Models As Programming Language Interpreters}, author={Aditya Thimmaiah, Jiyang Zhang, Jayanth Srinivasa, Junyi Jessy Li, Milos Gligoric}, year={2025}, archivePrefix={arXiv}, url={https://arxiv.org/abs/2510.03415}, }

许可证

CC BY 4.0许可证：https://creativecommons.org/licenses/by/4.0/

搜集汇总

数据集介绍

构建方式

在编程语言语义分析领域，PLSemanticsBench通过系统化整合多种语义形式化方法构建而成。该数据集以IMP语言为基础框架，融合了标准语义与非标准语义的差异化表达，并采用K语义与结构化操作语义两种形式化体系。数据来源涵盖人工编写、大模型翻译和模糊生成三种渠道，通过程序变异技术引入语法层面的扰动，最终形成包含完整执行轨迹、语义规则序列及程序状态的标准化标注体系。

特点

作为首个专门评估大语言模型程序解释能力的基准，该数据集具备多维度评估特性。其核心价值体现在三大任务设计：最终状态预测要求模型推断程序执行结果，语义规则预测需还原形式化推导过程，执行轨迹预测则需重建程序逐步运行状态。数据集通过六种语义形式化组合与三种数据源交叉验证，配合链式思考与直接提示等策略，全面考察模型对程序语义的深层理解能力。

使用方法

研究者可通过HuggingFace平台直接加载数据集子集，利用预置的BaseRunner接口实现模型适配。评估流程支持自定义实验参数配置，包括任务类型、语义形式化方案及提示策略等关键维度。通过调用do_experiment方法生成预测结果后，LLMEvaluator将自动计算准确率与畸形输出统计量。该框架已集成OpenAI与Ollama等主流模型接口，支持快速开展对比实验与消融分析。

背景与挑战

背景概述

在程序语言理论与软件工程交叉领域，对大型语言模型程序理解能力的系统评估长期缺乏标准化基准。PLSemanticsBench作为首个专为评估语言模型作为程序解释器设计的基准数据集，由EngineeringSoftware团队于2025年创建。该数据集通过预测程序最终状态、语义规则序列及执行轨迹三大核心任务，构建了涵盖IMP语言的标准与非标准语义形式化体系，填补了程序语义推理能力量化评估的空白，为编程语言智能体研究提供了关键基础设施。

当前挑战

该数据集致力于解决程序语义推理任务的评估挑战，其核心在于验证语言模型对结构化程序执行逻辑的深层理解能力。构建过程中需克服多重技术障碍：如何设计覆盖不同语义形式化方法的标准化数据表示，如何确保执行轨迹标注与语义规则的一致性，以及如何平衡人工编写数据与自动生成数据的代表性。这些挑战直接关系到评估结果的可靠性与泛化能力，对程序验证领域的算法发展具有重要影响。

常用场景

经典使用场景

在编程语言语义理解领域，PLSemanticsBench作为首个评估大语言模型作为编程语言解释器的基准，其经典应用场景聚焦于通过PredState、PredRule和PredTrace三大任务系统评估模型对程序执行过程的深层理解能力。该数据集通过IMP语言的不同语义形式化方法（如K语义和SOS），构建了从程序状态预测到语义规则序列生成的完整评估体系，为研究模型在结构化程序推理中的表现提供了标准化测试环境。

实际应用

在实际应用层面，PLSemanticsBench为智能编程助手和代码理解系统的开发提供了关键评估工具。其构建的语义规则预测任务可直接应用于自动化程序验证系统，而执行轨迹预测功能则能增强调试工具的智能诊断能力。数据集支持的人类编写与模糊测试生成等多源数据，进一步确保了评估结果在真实软件开发场景中的适用性与鲁棒性。

衍生相关工作

基于该数据集衍生的经典研究主要集中在语义增强的程序推理方向。相关工作通过扩展数据集的语义形式化框架，开发了结合抽象解释与符号执行的混合评估方法。另有研究利用数据集的规则序列预测任务，构建了可解释的程序语义分析管道，这些成果显著推进了神经程序合成与程序语义形式化验证领域的融合发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集