zvzv1919/plain_haiku45-20t_prompterv2-offset200-healedforoffset0

Name: zvzv1919/plain_haiku45-20t_prompterv2-offset200-healedforoffset0
Creator: zvzv1919
Published: 2026-04-10 18:34:30
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/zvzv1919/plain_haiku45-20t_prompterv2-offset200-healedforoffset0

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit --- # plain_haiku45-20t_prompterv2-offset200-healedforoffset0 ## Summary | Metric | Value | | --- | --- | | Total instances | 100 | | File matches | 64 (64%) | | Function matches | 61 (61%) | | File mismatches | 2 | | No result | 34 | | Avg turns | 14.4 | ## Config ```yaml agent_func: locate agent_module: agents.locator.plain bench_name: plain_haiku45-20t_prompterv2-offset200-healedforoffset0 collection: zvzv1919/swe-lite-sympy-11400-69d146b3787b38cf81b3a888 dataset: zvzv1919/prompter_v2 limit: 100 max_turns: 20 max_workers: 20 model: claude-haiku-4-5-20251001 offset: 200 repo_path: sympy__sympy-11400/sympy repo_path_prefix: /Users/xuan.zhao/Documents/GitHub-zv/ shuffle: false split: train ```

提供机构：

zvzv1919

搜集汇总

数据集介绍

构建方式

在软件工程领域，自动化代码定位任务对提升开发效率至关重要。该数据集基于sympy项目中的特定代码库，采用prompter_v2框架生成对话式交互序列。通过配置Claude Haiku模型，在限定20轮对话内模拟开发者与智能代理的协作过程，以offset参数控制数据起始点，并经过修复处理确保序列完整性，最终从大规模集合中采样100个实例构成评估基准。

使用方法

该数据集适用于评估智能代理在代码库中的定位能力。研究者可通过加载数据集中的对话序列，分析代理在每轮交互中根据自然语言描述定位代码文件或函数的表现。典型使用流程包括解析对话轮次、提取查询意图、验证定位结果与标注的匹配程度，并利用文件不匹配等案例进行错误分析。数据集采用YAML格式存储配置信息，便于调整参数开展消融实验。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，自动化代码理解与定位任务日益凸显其重要性。数据集plain_haiku45-20t_prompterv2-offset200-healedforoffset0由研究人员或机构zvzv1919构建，其核心研究问题聚焦于评估大型语言模型在复杂代码库中精准定位特定函数或文件的能力。该数据集基于SymPy数学库的特定版本，通过设计多轮对话交互场景，旨在推动智能代码助手与自动化调试工具的发展，对提升软件维护效率与代码智能分析水平具有潜在影响力。

当前挑战

该数据集致力于解决代码定位这一软件工程核心问题的挑战，具体体现在模型需在庞大且结构复杂的代码库中准确理解自然语言查询，并映射到具体的函数或文件，这对模型的代码语义理解与上下文推理能力提出了极高要求。在构建过程中，挑战主要源于数据对齐与质量保障，例如文件匹配率仅64%、函数匹配率61%，且存在部分实例无结果或失配，这反映了代码库版本差异、路径偏移修复以及多轮对话轨迹一致性维护所带来的技术难题。

常用场景

经典使用场景

在软件工程与代码智能领域，该数据集专为评估大型语言模型在代码定位任务中的性能而设计。其经典使用场景涉及模拟开发者调试过程，要求模型根据自然语言描述在复杂代码库中精确识别相关函数或文件。通过多轮对话交互形式，数据集能够系统测试模型理解代码语义、追踪代码依赖及解析用户意图的能力，为代码搜索与导航研究提供标准化基准。

解决学术问题

该数据集有效解决了代码智能研究中长期存在的基准缺失问题。传统代码数据集多聚焦于生成或补全任务，缺乏对代码理解与定位能力的细粒度评估。本数据集通过构建真实代码库中的多轮定位任务，为研究者提供了衡量模型代码推理准确率、容错性与交互效率的量化工具，推动了代码语义理解、程序分析与人机协作等方向的实证研究进展。

实际应用

在实际开发环境中，该数据集可直接支撑智能编程助手与自动化调试工具的开发。基于其构建的评估框架能够优化代码搜索引擎的排序算法，提升IDE中代码导航功能的准确性。同时，数据集模拟的多轮交互机制为构建可对话式代码检索系统提供了训练数据与评估标准，有助于降低软件维护成本并加速开发迭代流程。

数据集最近研究