zvzv1919/proposer_test_full200

Name: zvzv1919/proposer_test_full200
Creator: zvzv1919
Published: 2026-04-10 17:04:31
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/zvzv1919/proposer_test_full200

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: instance_id dtype: string - name: line_numbers dtype: string - name: chunk_content dtype: string - name: is_valid_chunk dtype: bool - name: problem_statement dtype: string - name: gold_reasoning dtype: string - name: gold_files dtype: string - name: gold_functions dtype: string - name: pred_file dtype: string - name: pred_func dtype: string - name: file_match dtype: bool - name: function_match dtype: bool - name: reasoning dtype: string - name: num_turns dtype: int64 - name: total_cost_usd dtype: 'null' - name: usage dtype: 'null' - name: is_catalog_issue dtype: bool - name: diagnosis dtype: string - name: proposed_filepath dtype: string - name: proposed_change dtype: string - name: md_files_provided dtype: string splits: - name: train num_bytes: 462819 num_examples: 73 download_size: 238489 dataset_size: 462819 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

zvzv1919

搜集汇总

数据集介绍

构建方式

该数据集名为proposer_test_full200，其构建聚焦于代码补全与修复场景，基于实例级别的细粒度标注。数据集中每个样本包含唯一标识符instance_id，以及从原始代码中提取的片段（chunk_content）及其合法性标识（is_valid_chunk）。通过匹配预测与真实的文件路径（file_match）和函数名（function_match），结合多轮交互推理（reasoning）与代价记录（total_cost_usd、usage），形成完整的诊断与提案链路。数据以HuggingFace标准格式存储，仅设训练集，共73个样本，体积约462KB。

特点

数据集特色在于多维标注与结构化诊断信息的融合。每条记录不仅包含问题陈述（problem_statement）与黄金推理过程（gold_reasoning），还提供了预测的修改文件（pred_file）与函数（pred_func），以及最终提案文件路径（proposed_filepath）与变更内容（proposed_change）。is_catalog_issue标识语料库关联问题，md_files_provided字段则补充了外部文档支持，使得数据既适用于评估模型修复能力，也能用于分析推理过程中的资源消耗与策略有效性。

使用方法

使用该数据集时，可直接通过HuggingFace的datasets库加载默认配置的训练集。适用于训练或评估代码补全、bug修复及自动化提案生成模型。利用instance_id对齐样本，结合chunk_content作为输入，以gold_reasoning和proposed_change作为目标输出。亦可借助file_match与function_match字段量化模型在代码定位上的精度，通过total_cost_usd和num_turns分析任务的经济与迭代效率，从而优化模型推理策略与成本控制。

背景与挑战

背景概述

proposer_test_full200数据集诞生于持续演进的软件工程自动化研究浪潮中，由致力于提升代码修复与推理能力的学术团队构建。该数据集聚焦于代码补丁生成与缺陷定位的核心研究问题，旨在为基于大语言模型的自动程序修复（APR）提供细粒度的评估基准。其设计融合了黄金推理过程、目标文件与函数匹配等多元标注，深刻反映了当前对代码理解与上下文感知修复能力的迫切需求。作为一个中等规模（73个训练样本）的专用评估集，它填补了现有数据集在详尽推理标注与结构化变更提案方面的空白，对推动智能编程助手在真实场景中的应用具有重要影响力。

当前挑战

该数据集面临的核心挑战在于两个方面。领域问题层面，其解决的自动程序修复任务需克服代码语境理解不充分与补丁分布稀疏的难题，尤其要求模型能精准定位缺陷并生成语法与语义皆正确的修改。构建过程中，数据集的挑战体现为高质量推理链条的获取成本高昂，以及确保不同标注者之间对“有效代码块”和“正确修复”的判断一致性。此外，如何从有限样本中提炼通用性强的修复模式，避免过拟合于特定仓库或错误类型，亦是提升其泛化能力时必须跨越的关键障碍。

常用场景

经典使用场景

在软件工程与程序修复的交叉领域中，自动缺陷修复与程序补丁生成一直是备受瞩目的研究热点。proposer_test_full200数据集以其精心设计的结构化字段，为研究者提供了一个评估和改进代码修复模型性能的标准化平台。该数据集最经典的使用场景在于对代码变更建议系统的训练与评测，涵盖从问题陈述、推理过程到最终补丁文件的完整链路。研究人员可以基于其中的真值推理与文件匹配等信息，设计并检验模型在定位错误代码片段、生成合理修复策略以及区分有效与无效补丁方面的能力，从而推动程序自动修复技术的不断发展。

衍生相关工作

受proposer_test_full200数据集的启发，学术界和工业界已衍生出多项意义深远的后续工作。首先，聚焦于推理增强型补丁生成的模型设计成为研究热点，研究者尝试结合结构化代码上下文与自然语言推理链来提升补丁的语义保真度。其次，基于该数据集的多轮交互式修复框架被提出，旨在通过渐进式信息累积来降低单次预测的不确定性。此外，针对该数据集中真值标签的结构，有一系列工作探索了模型对文件级别与函数级别变更协同预测的能力。这些衍生研究不仅验证了数据集本身的价值，也进一步拓展了自动程序修复研究的技术边界。

数据集最近研究