PLSemanticsBench

Hugging Face2026-01-29 更新2026-01-30 收录

下载链接：

https://huggingface.co/datasets/LambdaadbmaL/PLSemanticsBench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置（nl2rule、nl2rule_K、predrule、predstate、predtrace、rule2nl、rule2nl_K），每个配置具有不同的特征和分割。主要特征包括语言、语法、语义、突变模式以及任务相关字段。数据集适用于自然语言处理与规则转换相关的任务，如自然语言到规则的转换（nl2rule）、规则到自然语言的转换（rule2nl）、程序预测（predrule、predstate、predtrace）等。每个配置的分割数据量不同，提供了详细的字节数和示例数。数据集的来源和具体应用场景未在README中明确说明。

创建时间：

2026-01-21

原始信息汇总

PLSemanticsBench 数据集概述

数据集基本信息

数据集地址：https://huggingface.co/datasets/LambdaadbmaL/PLSemanticsBench
配置数量：7个独立配置
总体数据量：下载大小总计约 23.6 MB，数据集总大小约 277.3 MB

配置详情

1. nl2rule

任务类型：自然语言到规则转换
特征字段：language, syntax, semantics-glossary, mutated, semantics-type, mutation-pattern, task, setup-name, random-mode, question, options, option_rule_ids, answer_index, answer_rule_id, sampling_mode, num_rules
数据划分：
- Standard_NumRule5_RandomSampleFalse：200个样本
- NonStandard_NumRule5_RandomSampleFalse：400个样本
- NonStandard_NumRule5_RandomSampleTrue：400个样本
- Standard_NumRule5_RandomSampleTrue：200个样本
数据量：下载大小 208,183 字节，数据集大小 7,761,793 字节

2. nl2rule_K

任务类型：自然语言到规则转换（K变体）
特征字段：language, syntax, semantics-glossary, mutated, semantics-type, mutation-pattern, num_rules, task, setup-name, random-mode, question, options, option_rule_ids, answer_index, answer_rule_id, sampling_mode
数据划分：
- Standard_NumRule5_RandomSampleFalse：200个样本
- Standard_NumRule5_RandomSampleTrue：200个样本
- NonStandard_NumRule5_RandomSampleFalse：400个样本
- NonStandard_NumRule5_RandomSampleTrue：400个样本
数据量：下载大小 123,901 字节，数据集大小 5,105,600 字节

3. predrule

任务类型：规则预测
特征字段：id, program, src-filename, semantics-type, syntax, semantics, language, mutated-program, mutated, mutation-pattern, K-evaluatable, ground-truth, sampled-statements（包含line_number, prior_state, rules, cleaned_stmt, control_stack子字段）
数据划分：
- sos_uk_human_written：162个样本
- sos_mk_human_written：324个样本
- k_mk_human_written：324个样本
- k_uk_human_written：162个样本
数据量：下载大小 656,503 字节，数据集大小 17,637,930 字节

4. predstate

任务类型：状态预测
特征字段：id, program, src-filename, semantics-type, syntax, semantics, language, mutated-program, mutated, mutation-pattern, K-evaluatable, ground-truth
数据划分：
- sos_uk_human_written：162个样本
- sos_mk_human_written：324个样本
- k_mk_human_written：324个样本
- k_uk_human_written：162个样本
- sos_uk_llm_translated：165个样本
- sos_mk_llm_translated：330个样本
- k_mk_llm_translated：330个样本
- k_uk_llm_translated：165个样本
- sos_uk_fuzzer_generated：165个样本
- sos_mk_fuzzer_generated：330个样本
- k_mk_fuzzer_generated：330个样本
- k_uk_fuzzer_generated：165个样本
数据量：下载大小 18,630,365 字节，数据集大小 106,880,930 字节

5. predtrace

任务类型：执行轨迹预测
特征字段：id, program, src-filename, semantics-type, syntax, semantics, language, mutated-program, mutated, mutation-pattern, K-evaluatable, ground-truth, max-loop-depth, max-if-depth
数据划分：
- sos_uk_human_written：162个样本
- sos_mk_human_written：324个样本
- k_mk_human_written：324个样本
- k_uk_human_written：162个样本
数据量：下载大小 3,449,894 字节，数据集大小 88,954,180 字节

6. rule2nl

任务类型：规则到自然语言转换
特征字段：language, syntax, semantics-glossary, mutated, semantics-type, mutation-pattern, task, setup-name, random-mode, question, options, option_rule_ids, answer_index, answer_rule_id, sampling_mode, num_descriptions
数据划分：
- Standard_NumDescription5_RandomSampleFalse：200个样本
- Standard_NumDescription5_RandomSampleTrue：200个样本
- NonStandard_NumDescription5_RandomSampleTrue：400个样本
- NonStandard_NumDescription5_RandomSampleFalse：400个样本
数据量：下载大小 135,004 字节，数据集大小 4,775,631 字节

7. rule2nl_K

任务类型：规则到自然语言转换（K变体）
特征字段：language, syntax, semantics-glossary, mutated, semantics-type, mutation-pattern, num_descriptions, task, setup-name, random-mode, question, options, option_rule_ids, answer_index, answer_rule_id, sampling_mode
数据划分：
- Standard_NumDescription5_RandomSampleFalse：200个样本
- Standard_NumDescription5_RandomSampleTrue：200个样本
- NonStandard_NumDescription5_RandomSampleTrue：400个样本
- NonStandard_NumDescription5_RandomSampleFalse：400个样本
数据量：下载大小 124,511 字节，数据集大小 5,614,027 字节

核心特征说明

语言相关：language字段标识编程语言
语法语义：syntax和semantics字段描述程序语法和语义特性
变异信息：mutated, mutation-pattern字段标识程序是否经过变异及变异模式
任务设置：task, setup-name, random-mode等字段描述实验设置
答案信息：answer_index, answer_rule_id, ground-truth等字段提供正确答案
程序状态：predstate配置包含丰富的程序状态变量跟踪

数据来源多样性

人类编写：human_written划分
LLM翻译：llm_translated划分
模糊生成：fuzzer_generated划分
标准与非标准：Standard和NonStandard划分
随机采样：RandomSampleTrue和RandomSampleFalse划分

搜集汇总

数据集介绍

构建方式

在程序语义理解领域，PLSemanticsBench的构建融合了多源数据生成策略。该数据集通过人工编写、大语言模型翻译以及模糊测试生成三种方式，系统性地创建了涵盖不同编程语言和语义类型的样本。其核心在于引入程序变异机制，针对原始代码施加特定模式的语义扰动，从而衍生出具有挑战性的测试实例。这种构建方法确保了数据在语法多样性和语义深度上的均衡分布，为模型鲁棒性评估奠定了坚实基础。

特点

PLSemanticsBench的显著特征体现在其多层次的任务架构与精细的语义标注体系。数据集包含nl2rule、predrule、predstate、predtrace及rule2nl等多个配置，分别对应自然语言到规则、规则预测、状态预测、执行轨迹预测和规则到自然语言等核心任务。每个样本均标注了语义类型、变异模式、控制结构深度等元数据，并提供了详尽的程序状态跟踪信息。这种设计使得数据集能够全面评估模型对程序语义的深层理解能力与推理精度。

使用方法

使用PLSemanticsBench时，研究者可根据具体评估目标选择相应的配置与数据分割。数据集支持从HuggingFace平台直接加载，通过指定config_name与split参数即可访问特定子集。例如，针对程序推理任务可加载predstate配置中的人工编写分割，而考察模型抗干扰能力则可选用经过变异的非标准分割。数据集中提供的question、options、ground-truth等字段可直接用于模型训练与测试，其结构化格式便于集成到现有的机器学习流程中，为程序语义理解研究提供标准化评测基准。

背景与挑战

背景概述

在程序语言语义理解领域，传统基准测试往往局限于语法层面的分析，难以深入评估模型对程序逻辑与语义的推理能力。PLSemanticsBench数据集应运而生，旨在填补这一空白，其核心研究问题聚焦于自然语言与程序规则之间的双向映射、程序状态预测及执行轨迹追踪。该数据集由相关研究团队构建，通过整合人类编写、大语言模型翻译及模糊测试生成的多源程序样本，构建了涵盖多种语义类型与变异模式的综合性评估框架。其影响力在于为程序语义理解任务提供了细粒度、可扩展的基准，推动了代码智能与程序分析领域向更深层次的语义推理迈进。

当前挑战

PLSemanticsBench所针对的领域挑战在于程序语义理解的复杂性，包括自然语言描述与形式化规则之间的准确转换、程序执行过程中的状态演化推理以及长序列执行轨迹的建模。这些任务要求模型具备深厚的逻辑推理与符号操作能力，超越传统的表面模式匹配。在数据集构建过程中，挑战主要体现在确保语义标注的精确性与一致性，尤其是在处理程序变异和复杂控制结构时；同时，平衡不同数据源（如人类编写与自动生成）的质量与多样性，以及设计能够全面覆盖各种语义现象和边缘情况的评估任务，也是构建过程中的关键难点。

常用场景

经典使用场景

在程序语义理解领域，PLSemanticsBench数据集常被用于评估模型对编程语言语义的推理能力。其经典使用场景涉及自然语言与程序规则之间的双向转换任务，例如将自然语言描述映射到对应的程序规则，或从程序规则生成准确的自然语言解释。通过包含多种编程语言变体和语义类型，该数据集能够系统测试模型在不同语法结构和语义逻辑下的表现，为程序理解研究提供了标准化的评估基准。

衍生相关工作

围绕PLSemanticsBench数据集，已衍生出多项经典研究工作。这些工作主要集中在增强模型对程序语义的推理能力，例如开发新型神经网络架构来处理程序状态预测和规则推断任务。部分研究利用该数据集的突变模式探索模型的鲁棒性，另一些则专注于跨语言语义迁移学习，推动了程序理解与自然语言处理交叉领域的算法创新与理论进展。

数据集最近研究