zvzv1919/plain_haiku45-20t_prompterv2

Name: zvzv1919/plain_haiku45-20t_prompterv2
Creator: zvzv1919
Published: 2026-04-10 20:07:04
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/zvzv1919/plain_haiku45-20t_prompterv2

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit --- # plain_haiku45-20t_prompterv2 ## Summary | Metric | Value | | --- | --- | | Total instances | 20 | | File matches | 19 (95%) | | Function matches | 15 (75%) | | File mismatches | 1 | | No result | 0 | | Avg turns | 10.3 | ## Config ```yaml agent_func: locate agent_module: agents.locator.plain bench_name: plain_haiku45-20t_prompterv2 collection: zvzv1919/swe-lite-sympy-11400-69d146b3787b38cf81b3a888 dataset: zvzv1919/prompter_v2 limit: 20 max_turns: 20 max_workers: 20 model: claude-haiku-4-5-20251001 offset: 0 repo_path: sympy__sympy-11400/sympy repo_path_prefix: /Users/xuan.zhao/Documents/GitHub-zv/ shuffle: false split: train ```

提供机构：

zvzv1919

搜集汇总

数据集介绍

构建方式

plain_haiku45-20t_prompterv2数据集是基于prompter_v2数据集精心构建的基准评测集，旨在评估定位代理在代码仓库中的文件与函数定位能力。该数据集从原始prompter_v2数据集的训练集中筛选出20个实例，结合sympy__sympy-11400仓库的特定路径进行配置，并采用claude-haiku-4-5-20251001模型作为基础代理，限制最大对话轮次为20，同时设置并行工作线程数为20，从而构建出一个高效且可控的评测环境。

特点

该数据集具备高度的针对性与专业性，专注于代码定位任务，其20个实例中文件匹配率高达95%，函数匹配率亦达到75%，展现出良好的任务适配性。平均对话轮次为10.3，表明代理在多数场景下能以较少的交互完成定位，体现了数据集对代理效率的考量。此外，数据集采用MIT开源许可，便于研究社区广泛使用与复现。

使用方法

使用plain_haiku45-20t_prompterv2数据集时，研究者需配置相应的代理函数为locate，代理模块路径为agents.locator.plain，并确保代码仓库路径与repo_path_prefix一致。数据加载可通过指定数据集名称及split参数为train实现，同时建议将max_turns设为20以匹配原始设定。该数据集适用于评测代码定位代理的性能，尤其适合在sympy库场景下验证文件与函数定位的准确率与效率。

背景与挑战

背景概述

在自动化代码修复与软件工程领域，基于大语言模型的智能代理系统正逐渐成为研究热点。plain_haiku45-20t_prompterv2数据集由研究人员于2025年创建，依托Claude Haiku模型与prompter_v2框架，专注于评估智能代理在代码定位任务中的表现。该数据集包含20个精心设计的实例，覆盖SymPy数学库中的真实缺陷场景，旨在探索语言模型在多轮交互下精确识别代码问题的能力。通过将代理模块与结构化基准测试相结合，该数据集为衡量自动化代码修复系统的鲁棒性与效率提供了标准化测试平台，对推动软件调试智能化发展具有重要意义。

当前挑战

当前数据集面临多重挑战。在领域问题层面，代码定位任务要求代理在复杂代码库中精准识别错误位置，而SymPy库中数学逻辑的抽象性与依赖关系的隐蔽性极大增加了定位难度，传统静态分析工具难以应对此类动态语义错误。在构建过程中，20个实例的规模虽能快速验证模型能力，但样本数量有限可能导致评估结果统计显著性不足；同时，多轮交互的平均轮次达10.3次，反映出代理在低效探索中的资源浪费问题，如何优化代理的决策路径以减少冗余交互仍是亟待解决的挑战。

常用场景

经典使用场景

在软件工程与程序语言研究领域，自动代码定位与缺陷修复一直是极具挑战的核心课题。plain_haiku45-20t_prompterv2数据集专为评估智能代理在复杂代码仓库中的定位能力而设计，其经典使用场景聚焦于基于多轮交互的代码文件与函数级定位任务。研究者利用该数据集的20个精心构造的实例，每个实例平均需要约10.3轮交互，用以测试语言模型代理在给定问题描述后，能否精准定位到目标仓库中对应的错误文件及函数。该场景强调代理的上下文理解与路径推理能力，是衡量自动化调试工具实用性的重要基准。

实际应用

在实际工程应用中，plain_haiku45-20t_prompterv2数据集的核心价值在于赋能下一代智能编程辅助系统的开发与优化。基于该数据集训练或评估的代理模型，可被部署于大型代码仓库的日常维护场景，自动协助开发者定位错误源文件与异常函数，从而显著缩短调试周期。在开源协作平台如GitHub上，这类工具能够自动分析issue报告中描述的问题，快速锁定贡献代码中的缺陷位置，提升代码审查效率。此外，该数据集模拟的多轮交互机制，使其特别适用于构建能理解自然语言问题描述并与开发者进行深度协作的对话式调试助手。

衍生相关工作

围绕plain_haiku45-20t_prompterv2数据集，学术界已衍生出一系列经典工作，其中最具代表性的是基于其基准配置的代理定位器（agent_module: agents.locator.plain）优化研究。研究者通过改进代理的路径搜索策略与记忆机制，显著提升了在SymPy等数学符号计算库中的函数定位准确率。该数据集还与Prompter V2系列模型协同进化，催生了多轮交互中利用历史轨迹增强推理的方法。此外，部分工作探索了将数据集评估范式迁移至其他领域特定语言（DSL）的代码定位任务，验证了其评估框架的普适性。这些衍生研究共同构建了从数据集到方法论再到实际应用的完整闭环生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集