five

zvzv1919/proposer_test

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/zvzv1919/proposer_test
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: instance_id dtype: large_string - name: line_numbers dtype: large_string - name: chunk_content dtype: large_string - name: is_valid_chunk dtype: bool - name: problem_statement dtype: large_string - name: gold_reasoning dtype: large_string - name: gold_files dtype: large_string - name: gold_functions dtype: large_string - name: pred_file dtype: float64 - name: pred_func dtype: float64 - name: file_match dtype: bool - name: function_match dtype: bool - name: reasoning dtype: float64 - name: num_turns dtype: int64 - name: total_cost_usd dtype: float64 - name: usage dtype: float64 - name: is_catalog_issue dtype: bool - name: diagnosis dtype: large_string - name: proposed_filepath dtype: large_string - name: proposed_change dtype: large_string splits: - name: train num_bytes: 27863 num_examples: 4 download_size: 44951 dataset_size: 27863 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
zvzv1919
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集名为 proposer_test,由 HuggingFace 平台提供,旨在服务于自动化代码修复任务的研究与评估。数据集的构建基于对代码仓库中实例的采集与标注,每个实例包含问题描述、人工推理过程及对应的正确文件与函数信息。通过对比模型预测结果与真实标签,系统性地记录了预测文件、函数、推理内容及其匹配状态。数据集共包含4个训练样本,采用结构化存储,以 large_string、bool、float64 和 int64 等数据类型定义各个字段,确保信息的完整性与可解析性。
特点
proposer_test 数据集的核心特点在于其多维度的问题定位与修复评估机制。它不仅提供了问题陈述、推理过程和修复方案等基础信息,还通过 file_match 和 function_match 字段衡量模型在文件级与函数级定位的准确性。此外,reasoning 和 num_turns 字段反映了模型推理质量与交互轮次,total_cost_usd 和 usage 则记录了执行成本,为评估模型效率提供了量化指标。is_catalog_issue 与 diagnosis 字段进一步支持对错误分类与诊断原因的深入分析。
使用方法
该数据集适用于训练和评估基于大型语言模型的代码修复系统。用户可通过 instance_id 定位具体问题实例,利用 gold_reasoning 和 gold_files 作为标准答案,比对模型输出的 pred_file 和 pred_func。通过 file_match 和 function_match 可自动化评估定位准确率。数据以默认配置加载,使用 split='train' 读取全部4个样本。建议结合 reasoning 与 diagnosis 字段分析模型错误模式,并利用 total_cost_usd 优化推理成本,实现高效且准确的代码修复方案开发。
背景与挑战
背景概述
在软件工程与人工智能交叉领域,代码自动修复与缺陷定位一直是研究热点。proposer_test数据集由相关研究机构于近期构建,旨在探索基于大语言模型的代码补丁生成与验证能力。该数据集聚焦于从代码块中识别有效片段、推理问题陈述,并生成修复建议的核心研究问题,通过标注实例ID、行号、块内容、黄金推理过程及修正文件等特征,为评估模型在细粒度代码修复任务中的表现提供了标准化基准。其影响力体现在推动自动化调试工具从粗粒度匹配向语义级推理迈进,有望加速软件维护流程的智能化转型。
当前挑战
该数据集所解决的领域挑战主要涉及代码修复中的语义理解与定位精度,即如何在复杂代码库中准确识别缺陷块并生成符合预期的补丁,尤其面对多函数耦合或隐含依赖时,现有模型常因推理不足导致误判。在构建过程中,挑战包括设计可靠的黄金标注机制以平衡专家知识与自动化标注效率,以及处理稀疏的修复实例(当前仅含4个训练样本)带来的过拟合风险,同时需确保块分类、文件匹配等特征的标注一致性,避免因异构代码风格引入系统偏差。
常用场景
经典使用场景
该数据集专为评估和改进代码修复智能体而设计,核心使用场景聚焦于多轮交互式调试。研究人员通过提供包含问题陈述、黄金推理链及目标文件的实例,训练模型在复杂的软件仓库中定位缺陷。每个样本记录了从初始错误识别到最终补丁提议的完整推理轨迹,使得模型能够学习如何将问题陈述映射到具体的函数和文件修改,尤其擅长处理需要多步骤逻辑推导的编程错误。
解决学术问题
该数据集解决了自动程序修复领域长期存在的两个核心学术难题:一是如何量化模型在复杂代码库中的定位能力,二是如何评估多轮交互中的推理一致性。通过引入文件匹配与函数匹配的二进制指标,以及详细的成本与使用记录,它为研究零样本或少样本条件下的精准代码调试提供了标准化基准。数据集尤其关注诊断错误根因的推理过程,推动学术界从简单补丁生成向深层次逻辑推理转变。
衍生相关工作
该数据集衍生出多项开创性工作,包括基于推理链蒸馏的轻量级调试模型训练方法,以及融合上下文感知的补丁排序算法。研究者利用其黄金推理路径训练生成式模型,使其在未见过的代码问题上展现出可解释的推理能力。部分工作还围绕数据集中的多轮交互记录,设计了动态反馈学习框架,使得智能体能够根据前一轮的调试进展自动调整搜索策略,为构建自适应的软件维护系统奠定了重要基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作