PYMETA
收藏arXiv2026-06-30 更新2026-07-01 收录
下载链接:
https://github.com/Circle-Cat/pymeta
下载链接
链接失效反馈官方服务:
资源简介:
PYMETA是由CircleCat机构构建的大规模Python代码错误分类基准数据集,旨在为基于大语言模型的代码诊断研究提供数据基础。该数据集包含48,646条来自579名学生的真实代码提交,覆盖155个不同编程问题,并附带一个由专家标注的97条多错误诊断子集。数据通过在线学习平台收集,采用基于Python官方异常层次结构的三级分层分类法,包含从二元错误检测到14种细粒度错误类型的标注。数据集创建过程整合了在线判题系统的执行结果与专家人工注释,确保了标签的准确性与教育实用性。该数据集主要应用于编程教育场景,支持代码错误检测、分类及多错误分析研究,旨在解决现有数据集在规模、错误覆盖率和统一分类体系方面的不足。
PYMETA is a large-scale Python code error classification benchmark dataset constructed by CircleCat, which aims to provide a data foundation for code diagnosis research based on large language models (LLMs). This dataset contains 48,646 real code submissions from 579 students, covering 155 distinct programming problems, and includes a 97-sample multi-error diagnosis subset annotated by experts. The data is collected via online learning platforms, adopting a three-level hierarchical classification framework based on Python's official exception hierarchy, with annotations spanning from binary error detection to 14 fine-grained error types. The dataset creation process integrates the execution results of online judge systems and expert manual annotations, ensuring the accuracy and educational practicality of the labels. This dataset is primarily applied in programming education scenarios, supporting research on code error detection, classification and multi-error analysis, and aims to address the shortcomings of existing datasets in terms of scale, error coverage and unified classification system.
提供机构:
CircleCat
创建时间:
2026-06-30
原始信息汇总
数据集概述
数据集名称:PyMETA
存储仓库:https://github.com/Circle-Cat/pymeta
描述:该仓库是 PyMETA 项目的数据集存储库,用于存放与 PyMETA 相关的数据资源。目前仓库内容较为简洁,仅包含基础的项目说明,尚未提供详细的数据集结构、规模、格式或使用方式等信息。
搜集汇总
数据集介绍

构建方式
在编程教育领域,大规模、多错误类型标注的数据集长期匮乏。为此,研究者从Circle Cat在线学习平台收集学生提交日志,构建了PYMETA数据集。该数据集涵盖155道编程题目、579名用户的48,646份真实Python代码提交。每份样本包含问题描述、学生代码、在线评测系统的执行结果以及参考答案,共9个特征字段。所有样本通过IDE执行信号自动标注单一错误标签,同时由15名专家对其中97份潜在多错误样本进行三轮交叉验证标注,形成了多错误诊断子集。数据按照问题ID级别划分为训练集、开发集和测试集,确保同一问题的所有提交不被分割到不同集合。
特点
PYMETA数据集具备多维度显著特点。其采用三层级分层错误分类体系:任务A为二分类(有错/无错),任务B为三分类(无错/显式错误/逻辑错误),任务C涵盖14种细粒度错误类型,严格遵循Python官方异常层级体系。数据集不仅提供单一错误标注,还包含专家标注的多错误诊断子集(平均每样本1.91种错误类型),支持并发错误研究。统计显示,逻辑错误占比最高(23.4%),其次是语法错误(11.5%)和名称错误(5.3%)。数据集的多样性体现在22种问题类型、广泛的用户分布以及丰富的错误类别覆盖。
使用方法
PYMETA数据集支持多种研究范式。在单一错误分类任务中,研究者可采用微调方式使用CodeBERT、CodeLlama-7B等预训练模型,或通过提示方法评估GPT-3.5、GPT-4o、Gemini 2.5 Pro等大语言模型的零样本分类能力。对于多错误诊断,数据集提供了97份专家标注样本,可评估模型检测并发错误的能力,使用包含标准(预测标签命中任一真实标签)作为评价指标。研究者还可利用预测熵和混淆矩阵进行分析,探究模型在不确定性下的行为模式。数据集、划分方案、标注指南及评估脚本已在GitHub上开源发布。
背景与挑战
背景概述
随着大语言模型在编程教育、集成开发环境及软件工程中的广泛应用,代码错误检测任务从传统的IDE诊断逐步拓展至教育场景下的上下文敏感调试。然而,现有研究面临公共数据集规模有限、错误类型覆盖不全、缺乏统一分类体系及多错误标注不足等瓶颈。为弥合这一鸿沟,来自CircleCat团队的Chuyue Li、Ziqi Tang等研究人员于2026年构建了PYMETA——一个包含48,646份学生提交代码的大型Python代码错误分类基准数据集,覆盖155道编程题目与579名用户,并采用基于Python官方异常层次结构的三级分层分类法(从二分类到14种细粒度错误类型),同时提供97个专家标注的多错误诊断子集。该数据集为基于LLM的代码错误检测研究奠定了坚实的数据基础,显著推动了编程教育自动化与智能化诊断的发展。
当前挑战
PYMETA所应对的核心挑战在于:现有代码错误数据集普遍存在样本量小、问题类型与错误类别覆盖不足、缺乏统一分类标准及多错误分析能力,导致模型在真实教育场景下的泛化性受限。在数据集构建过程中,研究人员面临标签质量与规模的权衡:单错误标签虽可借助在线评测系统的执行信号自动获取,但多错误标签需依赖15位专家历经三轮互检的精细标注,且多错误样本在全部提交中占比极低,需通过基于模型混淆矩阵与预测熵的定向采样策略高效筛选。此外,现有大模型在推理时普遍存在对逻辑错误的过度预测偏差(最高达92.8%),且罕有错误类型(如递归错误、值错误)的分类精度近乎为零,揭示了模型在细粒度错误检测与多错误推理中的显著局限性。
常用场景
经典使用场景
在编程教育领域中,PYMETA数据集被广泛用于学生代码错误的层次化分类研究。该数据集基于Python解释器的执行结果,构建了一个从二元无错误/有错误划分到14种细粒度错误类型的三级层次化错误分类体系。研究者利用这一体系,能够对学生的Python代码提交进行多粒度、系统化的错误诊断,从而深入理解学生在编程学习过程中面临的典型错误模式及其分布规律。
实际应用
在实际教学中,PYMETA数据集为自动化编程作业评估系统和智能辅导工具的开发提供了关键支撑。教育平台可基于该数据集训练错误分类模型,实现对学生提交代码的即时、准确诊断,识别出语法错误、名称错误、类型错误等具体问题类型。这一能力不仅减轻了教师手动批改的负担,还能为学习者提供针对性的错误反馈,促进她们在编程实践中快速定位并修正错误,从而提升编程学习效率与教学质量。
衍生相关工作
基于PYMETA数据集,研究者已衍生出多项经典工作。在模型层面,相关工作对比了CodeBERT、CodeLlama-7B等微调模型与GPT-3.5、GPT-4o、Gemini 2.5 Pro、DeepSeek-V3等大型语言模型在单错误与多错误分类任务上的表现,揭示了微调小模型在特定任务上仍优于大模型提示的发现。在方法层面,相关工作引入了基于混淆矩阵和预测熵的多错误采样策略,构建了专家标注的诊断子集,为分析模型在复杂多错误场景下的不确定性提供了范式。此外,针对逻辑错误过度预测的系统性偏差分析,催生了对模型执行推理行为对齐的研究方向。
以上内容由遇见数据集搜集并总结生成



