zvzv1919/plain_gemini25flash-20t_prompterv2-healedforhaiku
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/zvzv1919/plain_gemini25flash-20t_prompterv2-healedforhaiku
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
---
# plain_gemini25flash-20t_prompterv2-healedforhaiku
## Summary
| Metric | Value |
| --- | --- |
| Total instances | 200 |
| File matches | 127 (63%) |
| Function matches | 81 (40%) |
| File mismatches | 72 |
| No result | 1 |
| Avg turns | 4.1 |
## Config
```yaml
agent_func: locate
agent_module: agents.locator.plain
bench_name: plain_gemini25flash-20t_prompterv2-healedforhaiku
collection: zvzv1919/swe-lite-sympy-11400-69d146b3787b38cf81b3a888
dataset: zvzv1919/prompter_v2
limit: 200
max_turns: 20
max_workers: 30
model: gemini-2.5-flash
repo_path: sympy__sympy-11400/sympy
repo_path_prefix: /Users/xuan.zhao/Documents/GitHub-zv/
shuffle: false
split: train
```
许可证:MIT
# plain_gemini25flash-20t_prompterv2-healedforhaiku
## 摘要
| 指标 | 数值 |
| --- | --- |
| 总实例数 | 200 |
| 文件匹配数 | 127(63%) |
| 函数匹配数 | 81(40%) |
| 文件不匹配数 | 72 |
| 无结果数 | 1 |
| 平均交互轮次 | 4.1 |
## 配置
yaml
智能体函数(agent_func): locate
智能体模块(agent_module): agents.locator.plain
基准测试名称(bench_name): plain_gemini25flash-20t_prompterv2-healedforhaiku
数据集集合(collection): zvzv1919/swe-lite-sympy-11400-69d146b3787b38cf81b3a888
源数据集(dataset): zvzv1919/prompter_v2
样本上限(limit): 200
最大交互轮次(max_turns): 20
最大工作进程数(max_workers): 30
模型(model): gemini-2.5-flash
仓库路径(repo_path): sympy__sympy-11400/sympy
仓库路径前缀(repo_path_prefix): /Users/xuan.zhao/Documents/GitHub-zv/
是否洗牌(shuffle): false
数据集拆分(split): train
提供机构:
zvzv1919
搜集汇总
数据集介绍

构建方式
在软件工程领域,自动化代码生成与修复任务对高质量数据集的需求日益增长。plain_gemini25flash-20t_prompterv2-healedforhaiku数据集通过特定配置流程构建而成,其核心基于zvzv1919/prompter_v2数据集,并采用gemini-2.5-flash模型作为代理,在sympy__sympy-11400/sympy代码库上执行定位任务。构建过程中设置了最大对话轮次为20,并利用多工作线程并行处理,最终从训练分割中筛选出200个实例,确保了数据在有限规模下的代表性与效率平衡。
特点
该数据集展现出鲜明的技术特性,其统计指标揭示了实际应用中的性能轮廓。在总计200个实例中,文件匹配率达到63%,函数匹配率为40%,同时存在一定比例的文件不匹配情况,平均对话轮次维持在4.1轮,反映了任务交互的复杂度。这些特征共同勾勒出一个专注于代码定位与修复场景的数据集,其结构设计旨在评估模型在真实代码库环境下的精确性与鲁棒性,为软件自动化研究提供了量化基准。
使用方法
针对代码智能与自动化测试的研究场景,该数据集的使用需遵循其内在配置逻辑。研究人员可基于提供的YAML配置参数,复现数据生成环境,重点关注代理模块在定位任务中的行为模式。数据集适用于评估大语言模型在代码库中的导航与匹配能力,通过分析文件与函数匹配率、不匹配案例以及对话轮次分布,能够深入洞察模型在实际软件开发流程中的效能边界与改进方向。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,代码生成与程序理解任务对高质量数据集的需求日益增长。plain_gemini25flash-20t_prompterv2-healedforhaiku数据集应运而生,其构建基于zvzv1919/prompter_v2数据集,并利用gemini-2.5-flash模型进行增强处理,专注于符号计算库SymPy的代码定位任务。该数据集由研究人员或机构通过自动化代理流程创建,旨在探索大语言模型在复杂代码库中精准定位函数与文件的能力,核心研究问题涉及模型在真实软件开发环境中的实际效用与泛化性能,为代码智能辅助工具的开发提供了关键数据支撑。
当前挑战
该数据集致力于解决代码定位这一软件工程核心问题的挑战,即要求模型在庞大且结构复杂的代码库中准确识别特定功能对应的源代码位置,这涉及对代码语义、项目结构及依赖关系的深度理解。在构建过程中,面临多重挑战:数据集中仅63%的文件匹配率与40%的函数匹配率揭示了模型输出与真实代码间存在显著偏差,反映出生成式模型在代码精确性上的局限;同时,高达72例的文件不匹配与1例无结果情况,凸显了自动化流程在处理边缘案例与噪声数据时的脆弱性,这些因素共同制约了数据集的可靠性与后续研究的可复现性。
常用场景
经典使用场景
在软件工程与代码生成领域,plain_gemini25flash-20t_prompterv2-healedforhaiku数据集以其精心构建的对话式交互实例,为智能代码定位与修复任务提供了经典的应用场景。该数据集通过模拟开发者与AI助手之间的多轮对话,聚焦于SymPy数学库中的具体代码文件与函数定位问题,旨在评估和优化大语言模型在复杂代码库中准确识别目标代码片段的能力。其平均对话轮次达到4.1轮,体现了对模型上下文理解与持续交互性能的深度考察,成为测试代码智能体检索与推理机制的基准环境。
衍生相关工作
围绕该数据集的设计理念与评估框架,已衍生出一系列聚焦于代码智能体性能优化的经典研究工作。这些工作通常借鉴其多轮对话与精确匹配的评估范式,进一步探索更高效的代码检索算法、更鲁棒的对话状态管理机制,或是将定位任务扩展至代码补全、缺陷修复等更广泛的软件工程任务。相关研究不仅深化了对大语言模型代码理解能力的认识,也催生了新一代评估基准与工具链的开发,持续推动着AI辅助编程领域的算法创新与系统构建。
数据集最近研究
最新研究方向
在代码智能与软件工程领域,plain_gemini25flash-20t_prompterv2-healedforhaiku数据集聚焦于自动化代码定位与修复任务的前沿探索。该数据集基于SymPy数学库的特定版本构建,通过集成Gemini-2.5-flash等先进大语言模型,驱动代理在复杂代码库中精准识别函数与文件匹配问题。当前研究热点围绕提升代码理解与生成的一致性,旨在解决实际开发中代码不匹配或缺失的挑战,推动自动化软件维护工具向更高准确性与效率演进,对降低人工调试成本、加速开源项目迭代具有显著意义。
以上内容由遇见数据集搜集并总结生成



