bermaneh/pde-var-logprob-evolution-canary-v1
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/bermaneh/pde-var-logprob-evolution-canary-v1
下载链接
链接失效反馈官方服务:
资源简介:
变量对数概率演化数据集:记录了在NoComm_CorrVar和NoComm_Valid PDE代码片段中每个变量出现时,真实变量名(gt_var)和错误变量名(corrupt_var)的条件对数概率(logP)及其差异。数据集包含442个样本,每个样本有20个特征,详细记录了代码片段信息、变量信息、位置信息以及模型对变量名的概率评估结果。该数据集旨在研究代码理解中变量名称的概率演化特性。
Variable log-probability evolution: logP(gt_var | prefix) vs logP(corrupt_var | prefix) at each variable occurrence in NoComm_CorrVar and NoComm_Valid PDE code snippets. The dataset contains 442 rows with 20 columns, detailing code snippet identifiers, condition types, PDE classes, variable information, occurrence indices, character offsets, line numbers, normalized code positions, and the models log-probability assessments of variable names. The dataset is designed to study the probability evolution characteristics of variable names in code understanding.
提供机构:
bermaneh
搜集汇总
数据集介绍

构建方式
该数据集聚焦于偏微分方程(PDE)代码理解任务,通过分析代码上下文中变量名称的语义合理性来构建。具体而言,研究者在无注释的PDE代码片段(NoComm_CorrVar与NoComm_Valid条件)中,针对每个变量出现位置,分别计算模型对真实变量名(gt_var)和扰动变量名(corrupt_var)的对数概率,以评估模型对变量命名语义的偏好。数据生成采用Qwen2.5-Coder-7B-Instruct模型,通过设置prompt_logprobs参数获取前缀条件概率,并控制温度为零以保证确定性输出。最终记录442条样本,涵盖20个字段,包括变量类别、出现索引、归一化位置等结构化信息,形成对变量概率演变的细腻刻画。
特点
数据集的核心特点在于其精细的对比性设计和多维度上下文表征。每条样本同时包含真实变量名与扰动变量名的对数概率值及其差值(logP_diff),直观反映模型对语义正确命名的偏向程度。数据不仅记录变量在代码中的绝对位置(行号、字符偏移),还引入归一化代码位置(code_fraction),便于跨样本的位置效应分析。此外,变量被分类为pde_state或pde_param,支持探究不同物理含义变量的模型感知差异。数据集还标记了不可计算概率的情况(corrupt_null/gt_null),确保数据完整性透明。这些特征使其成为研究代码语言模型对变量命名语义敏感性的宝贵资源。
使用方法
数据集通过HuggingFace的datasets库直接加载,使用load_dataset('bermaneh/pde-var-logprob-evolution-canary-v1', split='train')即可获取训练集。加载后,每条样本以字典形式呈现,包含20个字段,用户可基于logP_diff字段分析模型对变量名的偏好强度,或通过pde_class、var_class等字段进行分组比较。数据可轻松转换为Pandas DataFrame以进行统计分析和可视化,例如绘制不同PDE类别下logP_diff的分布,或探究变量出现位置(code_fraction)与模型偏好程度之间的关系。建议研究者在分析时注意corrupt_null与gt_null标记,以剔除无效概率计算样本,确保结果的可靠性。
背景与挑战
背景概述
偏微分方程求解与科学代码理解是人工智能与科学计算交叉领域的重要研究方向。该数据集名为pde-var-logprob-evolution-canary-v1,由研究团队于近期创建,旨在探究语言模型在无注释代码中理解变量语义的能力。核心研究问题聚焦于模型能否区分有意义的真实变量名与随机替换的噪声变量名,通过计算条件对数概率的动态变化来量化模型对代码语义的把握。数据集涉及Burgers、Heat等多类PDE代码片段,每个变量出现位置都被记录为探测点,从而揭示模型在代码处理过程中的语义偏好。该研究为理解神经语言模型在科学代码上的内在表征提供了新视角,推动代码智能与科学计算领域的交叉融合。
当前挑战
该数据集面临多重挑战。首先,在领域问题层面,现有代码理解模型多聚焦于通用编程语言,对PDE这类领域特定代码的语义结构理解不足,变量命名往往承载物理意义,模型需区分语义正确与错误的命名,这对模型的代码语义推理能力提出极高要求。其次,在构建过程中,数据集的生成需确保变量替换不影响代码合法性,且需要精确对齐真实变量名与替换名的探测位置;同时,对数概率计算依赖模型输出的概率分布,当模型无法为某些变量生成有效token时会导致空值记录,增加了数据处理的复杂性。此外,数据集中仅有442条样本,样本量较小可能限制统计效力和泛化性评估。
常用场景
经典使用场景
该数据集专为探究代码理解模型中变量命名语义的演化过程而设计,聚焦于偏微分方程(PDE)代码片段中变量名称的对数概率变化。通过在代码前缀条件下计算真实变量名与扰动变量名的对数概率差异,研究者能够定量分析语言模型对变量语义重要性的感知能力。经典使用场景包括评估大语言模型在代码补全任务中对变量命名语义的敏感度,以及探究模型在代码生成过程中如何逐步形成对变量含义的理解。
实际应用
在实际应用中,该数据集可用于开发更智能的代码审查工具,帮助检测代码中变量命名不当或语义混淆的问题。基于该数据集训练的模型能够辅助程序员在编码过程中推荐语义更贴切的变量名称,从而提升代码可读性和可维护性。此外,该数据集还可用于教育场景,评估学习者在代码编写中对变量命名的语义理解水平,为编程教学提供精准的反馈机制。
衍生相关工作
该数据集衍生出了一系列关于代码语义理解与模型可解释性的经典工作。例如,研究者基于该数据集提出了变量语义重要性评分方法,用于分析不同规模模型对变量命名的敏感度差异;进一步结合注意力机制,衍生出代码变量语义对齐分析工作,探究模型内部表示与人类代码理解的一致程度。此外,该数据集还催生了针对代码语言模型的对抗性评估框架,用于测试模型在面对语义混淆变量名时的鲁棒性表现。
以上内容由遇见数据集搜集并总结生成



