zvzv1919/proposer_test_full200-gemini

Name: zvzv1919/proposer_test_full200-gemini
Creator: zvzv1919
Published: 2026-04-10 19:27:36
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/zvzv1919/proposer_test_full200-gemini

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: instance_id dtype: string - name: line_numbers dtype: string - name: chunk_content dtype: string - name: is_valid_chunk dtype: bool - name: problem_statement dtype: string - name: gold_reasoning dtype: string - name: gold_files dtype: string - name: gold_functions dtype: string - name: pred_file dtype: string - name: pred_func dtype: string - name: file_match dtype: bool - name: function_match dtype: bool - name: reasoning dtype: string - name: num_turns dtype: int64 - name: total_cost_usd dtype: 'null' - name: usage dtype: 'null' - name: is_catalog_issue dtype: bool - name: diagnosis dtype: string - name: proposed_filepath dtype: string - name: proposed_change dtype: string - name: md_files_provided dtype: string splits: - name: train num_bytes: 479558 num_examples: 78 download_size: 255443 dataset_size: 479558 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

zvzv1919

搜集汇总

数据集介绍

构建方式

该数据集基于自动化流程构建，从代码库中提取实例，每个实例包含问题陈述、黄金推理、文件与函数信息。通过对比预测与黄金标准，生成文件与函数的匹配结果。数据筛选确保有效块，并标注了诊断信息与提议修改。最终形成78条训练样本，涵盖多轮交互成本与使用情况记录。

特点

数据集融合了代码推理与修复任务，具有丰富的结构化字段，如实例ID、行号、块内容与有效性标记。其特点在于提供黄金标准推理与预测推理的对比，以及文件与函数级别的精确匹配。此外，包含问题分类诊断与提议修改路径，支持多角度分析模型性能。

使用方法

使用时，可直接加载HuggingFace数据集，利用train分片中的78个样本进行训练或评估。通过字段如instance_id、problem_statement与reasoning，可构建输入输出对。借助file_match与function_match字段量化模型在代码定位与修改上的准确性，结合diagnosis与proposed_change进行错误分析与优化。

背景与挑战

背景概述

在代码生成与软件工程自动化领域，如何精准定位并修复程序中的错误始终是研究的核心议题。proposer_test_full200-gemini数据集由研究团队构建于近期，旨在探索大语言模型在代码调试与补丁生成任务中的能力边界。该数据集包含78个训练样本，每个样本详细记录了代码实例、问题陈述、正确推理过程、目标文件与函数信息，以及模型预测的修复方案与匹配情况。通过引入多维度字段如推理路径、错误类型诊断和修复建议，该数据集为评估模型在细粒度代码修复上的表现提供了标准化基准，对推动自动程序修复技术的发展具有重要价值。

当前挑战

该数据集所解决的领域问题在于代码修复任务中的准确性与可解释性挑战。传统的自动修复方法常因缺乏上下文理解而产生无效补丁，而该数据集通过要求模型输出推理过程与文件函数匹配信息，促使研究关注于生成符合语义的正确修复。构建过程中的挑战则体现在数据标注的复杂性上：需确保每个样本包含真实场景中的代码片段与明确的错误根源，同时平衡正负样本比例以避免模型偏向。此外，字段如‘usage’与‘total_cost_usd’的缺失暗示了在规模化构建时计算资源与数据一致性的管理难题，这对数据集的可扩展性构成了潜在限制。

常用场景

经典使用场景

在软件工程与程序修复领域，proposer_test_full200-gemini数据集为评估和训练基于大语言模型的自动程序修复系统提供了关键资源。研究者常利用该数据集中丰富的实例，包括代码片段、错误定位、推理过程及修复建议，来构建端到端的修复流程。通过比对预测文件与函数与实际修复方案的匹配程度，可系统性地衡量模型在细粒度代码修改上的能力，从而推动自动化缺陷修复技术的标准化评测。

衍生相关工作

基于该数据集，学界已衍生出多项经典工作，例如结合推理链增强的修复策略、多轮对话式程序调试框架，以及针对目录级错误的专项修复模型。研究者进一步利用其中的元数据设计出混合检索-生成范式，通过匹配历史修复经验提升补丁准确率。同时，数据集的成本标注催生了预算感知的模型选择研究，促使轻量级语言模型在资源受限场景下的优化探索，形成了从数据到方法论再到实用工具的创新链条。

数据集最近研究