zvzv1919/plain_haiku45-20t_prompterv2-offset200
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/zvzv1919/plain_haiku45-20t_prompterv2-offset200
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
---
# plain_haiku45-20t_prompterv2-offset200
## Summary
| Metric | Value |
| --- | --- |
| Total instances | 100 |
| File matches | 69 (69%) |
| Function matches | 64 (64%) |
| File mismatches | 3 |
| No result | 28 |
| Avg turns | 15.2 |
## Config
```yaml
agent_func: locate
agent_module: agents.locator.plain
bench_name: plain_haiku45-20t_prompterv2-offset200
collection: zvzv1919/swe-lite-sympy-11400-69d146b3787b38cf81b3a888
dataset: zvzv1919/prompter_v2
limit: 100
max_turns: 20
max_workers: 20
model: claude-haiku-4-5-20251001
offset: 200
repo_path: sympy__sympy-11400/sympy
repo_path_prefix: /Users/xuan.zhao/Documents/GitHub-zv/
shuffle: false
split: train
```
---
许可证:MIT许可证
---
# plain_haiku45-20t_prompterv2-offset200
## 摘要
| 指标 | 取值 |
| --- | --- |
| 总实例数 | 100 |
| 文件匹配数 | 69(69%) |
| 函数匹配数 | 64(64%) |
| 文件不匹配数 | 3 |
| 无结果数 | 28 |
| 平均交互轮次 | 15.2 |
## 配置
yaml
agent_func: locate
agent_module: agents.locator.plain
bench_name: plain_haiku45-20t_prompterv2-offset200
collection: zvzv1919/swe-lite-sympy-11400-69d146b3787b38cf81b3a888
dataset: zvzv1919/prompter_v2
limit: 100
max_turns: 20
max_workers: 20
model: claude-haiku-4-5-20251001
offset: 200
repo_path: sympy__sympy-11400/sympy
repo_path_prefix: /Users/xuan.zhao/Documents/GitHub-zv/
shuffle: false
split: train
提供机构:
zvzv1919
搜集汇总
数据集介绍

构建方式
在软件工程自动化测试领域,plain_haiku45-20t_prompterv2-offset200数据集的构建采用了基于特定代理函数的定位方法。该过程依托于agents.locator.plain模块,从zvzv1919/prompter_v2数据源中抽取样本,并以sympy__sympy-11400/sympy代码库作为目标环境。构建时设置了明确的限制条件,包括实例总数限定为100条,最大交互轮次为20轮,并采用了claude-haiku-4-5-20241001模型进行生成。数据选取时应用了200的偏移量,确保了数据序列的特定起始位置,同时未启用随机打乱以维持原始顺序,最终形成了用于训练分割的结构化集合。
特点
该数据集展现出鲜明的技术导向特征,其核心在于评估代理在代码库中的定位能力。数据集中包含100个实例,其中69%的实例实现了文件层级的匹配,64%达到了函数层级的匹配,这反映了数据集在代码元素关联上的较高精确度。平均交互轮次达到15.2轮,揭示了任务具有一定的复杂性和探索深度。数据集同时记录了少量文件不匹配及无结果的案例,为分析代理的失败模式提供了真实样本。整体而言,数据集紧密围绕软件工程中的代码导航任务设计,具有明确的评估指标和任务边界。
使用方法
使用该数据集时,应将其视为软件工程智能体能力评估的基准工具。研究人员可加载数据集中的实例,每个实例包含与目标代码库交互的多轮对话轨迹,用以测试或训练自动化代码定位模型。典型流程包括解析实例中的对话历史,模拟代理在指定代码仓库路径下的探索行为,并依据文件匹配与函数匹配等指标量化模型性能。数据集适用于模型在真实代码环境中的泛化能力研究、交互策略优化以及代码理解任务的基准测试,为推进自动化软件维护技术提供实证基础。
背景与挑战
背景概述
在软件工程与代码智能领域,自动化代码定位与理解是提升开发效率、辅助程序分析的核心研究方向。数据集 plain_haiku45-20t_prompterv2-offset200 由研究人员 zvzv1919 构建,其依托于开源项目 SymPy 的代码库,旨在评估大型语言模型在特定代码库上下文中精准定位目标函数或文件的能力。该数据集基于 prompter_v2 框架生成,通过模拟多轮对话交互,考察智能体在复杂代码结构中的导航与检索性能,反映了当前代码智能研究向细粒度、任务导向型评估的发展趋势。
当前挑战
该数据集致力于解决代码库语境下的精准定位问题,其核心挑战在于模型需理解自然语言指令与庞大、嵌套的代码结构之间的语义关联,并在多轮交互中维持上下文一致性。构建过程中的挑战则体现在对话轨迹的仿真与质量把控上,例如确保指令的多样性与真实性、处理代码库版本差异以及定义并计算‘文件匹配’、‘函数匹配’等评估指标,这些指标本身即反映了将模糊的代码理解任务转化为可量化评估的复杂性。
常用场景
经典使用场景
在软件工程与代码智能领域,plain_haiku45-20t_prompterv2-offset200数据集主要用于评估大型语言模型在代码定位任务中的性能。该数据集基于SymPy数学库的特定版本构建,通过模拟开发者查询代码位置的真实场景,测试模型在复杂代码库中准确识别函数或文件的能力。其经典使用场景涉及自动化代码导航、智能编程辅助以及代码库理解研究,为衡量模型在结构化代码环境中的推理精度提供了标准化基准。
实际应用
在实际开发环境中,该数据集支撑的模型能力可直接应用于企业级代码管理平台。集成此类定位模型的开发工具能够帮助工程师快速导航大型代码库,降低理解遗留系统或开源项目的认知负荷。在代码审查环节,自动化定位相关函数可显著提升审查效率;在教育领域,它能为编程学习者提供智能代码探索指导,增强其系统化理解复杂项目结构的能力。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在代码检索增强生成与仓库级编程智能方向。研究者基于其评估框架开发了多种代码感知的对话代理,这些代理能够结合代码结构特征进行多轮推理。后续工作进一步扩展了数据集的适用范围,将其与代码补全、测试生成等任务结合,形成了软件工程智能化的综合评估体系,推动了学术界对代码语义理解与交互式编程辅助的持续探索。
以上内容由遇见数据集搜集并总结生成



