zvzv1919/plain_gemini25flash-20t_prompterv2-healed

Name: zvzv1919/plain_gemini25flash-20t_prompterv2-healed
Creator: zvzv1919
Published: 2026-04-10 20:21:09
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/zvzv1919/plain_gemini25flash-20t_prompterv2-healed

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit --- # plain_gemini25flash-20t_prompterv2-healed ## Summary | Metric | Value | | --- | --- | | Total instances | 200 | | File matches | 142 (71%) | | Function matches | 73 (36%) | | File mismatches | 58 | | No result | 0 | | Avg turns | 3.3 | ## Config ```yaml agent_func: locate agent_module: agents.locator.plain bench_name: plain_gemini25flash-20t_prompterv2-healed collection: zvzv1919/swe-lite-sympy-11400-69d146b3787b38cf81b3a888 dataset: zvzv1919/prompter_v2 limit: 200 max_turns: 20 max_workers: 30 model: gemini-2.5-flash offset: 0 repo_path: sympy__sympy-11400/sympy repo_path_prefix: /Users/xuan.zhao/Documents/GitHub-zv/ shuffle: false split: train ```

提供机构：

zvzv1919

搜集汇总

数据集介绍

构建方式

在软件工程领域，自动化代码定位与修复任务对数据集的质量提出了较高要求。plain_gemini25flash-20t_prompterv2-healed数据集基于SymPy数学库的特定版本构建，通过配置代理函数进行代码定位，并利用Gemini 2.5 Flash模型生成对话交互。数据采集过程设置了20轮的最大对话轮次，从预定义的训练分割中抽取了200个实例，确保了数据在有限交互深度下的多样性与代表性。

使用方法

研究人员可将该数据集应用于代码定位与智能辅助开发工具的评估与训练。使用时需依据提供的配置参数，在指定代码库路径下加载数据，并关注对话轮次与匹配指标的变化。数据集适用于测试代理模型在有限轮次内定位代码文件或函数的能力，通过分析匹配与不匹配实例，能够深入评估模型在真实软件工程环境中的实际表现与泛化潜力。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，自动化代码理解与定位任务日益成为研究热点。plain_gemini25flash-20t_prompterv2-healed数据集由研究人员或机构基于开源项目SymPy构建，旨在评估大型语言模型在代码库中精准定位特定功能或文件的能力。该数据集创建于当代人工智能技术快速发展时期，其核心研究问题聚焦于提升模型对复杂代码结构的语义理解与导航效率，对于推动智能编程助手、代码检索系统及软件维护自动化具有显著影响力，为相关基准测试提供了关键数据支撑。

当前挑战

该数据集致力于解决代码定位这一软件工程核心问题的挑战，具体包括模型需在庞大且嵌套的代码库中准确识别目标函数或文件，克服代码语义模糊性、命名多样性及结构异构性带来的干扰。在构建过程中，挑战主要源于数据对齐的复杂性，例如仅71%的文件匹配率和36%的函数匹配率，反映了原始代码与预期目标间存在显著偏差，需通过多轮交互与启发式方法进行数据修复与验证，以确保评估的可靠性与一致性。

常用场景

经典使用场景

在软件工程与代码智能领域，plain_gemini25flash-20t_prompterv2-healed数据集为评估大型语言模型在代码定位任务中的性能提供了基准。该数据集聚焦于模拟开发者日常的代码搜索与理解场景，通过设计多轮对话交互，要求模型根据自然语言描述在复杂代码库中准确识别相关文件或函数。其经典使用场景体现在自动化代码审查、智能编程助手以及代码知识库检索等方向，为衡量模型在真实软件开发环境中的实用性与鲁棒性奠定了实证基础。

解决学术问题

该数据集主要针对代码智能研究中长期存在的语义理解与结构映射难题。它通过构建包含文件与函数匹配指标的多轮对话任务，系统性地检验模型对代码语义的深层解析能力，以及其在大型代码库中进行精确实体定位的效能。这一设计有效解决了传统评估中代码上下文缺失、交互动态性不足等局限，为学术界提供了可量化、可复现的评估框架，推动了代码理解与生成模型在细粒度任务上的进步。

实际应用

在实际软件开发流程中，该数据集支撑的评估范式可直接应用于增强集成开发环境的智能辅助功能。例如，基于其构建的定位系统能够帮助开发人员快速导航至目标代码段，显著提升代码维护与重构的效率。同时，在自动化测试与缺陷检测环节，此类技术可辅助识别与用户描述相关的代码区域，为持续集成与交付管道注入智能化元素，降低人工排查成本。

数据集最近研究