five

zvzv1919/plain_gemini25flash-20t_prompterv2-200-400

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/zvzv1919/plain_gemini25flash-20t_prompterv2-200-400
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit --- # plain_gemini25flash-20t_prompterv2-200-400 ## Summary | Metric | Value | | --- | --- | | Total instances | 200 | | File matches | 119 (59%) | | Function matches | 68 (34%) | | File mismatches | 81 | | No result | 0 | | Avg turns | 3.5 | ## Config ```yaml agent_func: locate agent_module: agents.locator.plain bench_name: plain_gemini25flash-20t_prompterv2-200-400 collection: zvzv1919/swe-lite-sympy-11400-69d146b3787b38cf81b3a888 dataset: zvzv1919/prompter_v2 limit: 200 max_turns: 20 max_workers: 50 model: gemini-2.5-flash offset: 200 repo_path: sympy__sympy-11400/sympy repo_path_prefix: /Users/xuan.zhao/Documents/GitHub-zv/ shuffle: false split: train ```
提供机构:
zvzv1919
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程与代码智能领域,plain_gemini25flash-20t_prompterv2-200-400数据集的构建体现了对自动化代码定位任务的深度探索。该数据集源自zvzv1919/prompter_v2这一基础集合,并从中选取了200个训练实例进行构建。其核心流程采用了名为'locate'的智能体功能模块,通过调用gemini-2.5-flash这一先进的大语言模型,在sympy数学库的特定代码仓库版本上进行多轮交互式推理。构建过程设置了最多20轮的对话轮次,并以并行方式高效处理任务,最终生成了包含文件与函数匹配度统计的结构化评估数据。
特点
该数据集在代码理解与定位任务上展现出鲜明的技术特征。其规模包含200个独立实例,平均每个实例涉及3.5轮交互对话,反映了任务具有一定的复杂性。从评估指标看,文件级别的匹配率达到59%,而函数级别的匹配率为34%,这种分层匹配精度为分析模型在不同代码粒度上的理解能力提供了细致依据。数据集配置明确指向sympy这一实际开源项目中的具体代码路径,确保了任务场景的真实性与实践相关性,同时其结构化的元数据记录为复现与比较研究奠定了坚实基础。
使用方法
对于研究人员而言,该数据集主要用于评估和推进代码智能体在代码库中的精准定位能力。使用者可加载数据集中的对话实例,模拟智能体根据自然语言查询在指定代码仓库中定位相关文件或函数的过程。通过分析模型在交互轮次中的决策路径与最终匹配结果,可以系统评估大语言模型对代码结构、语义的理解深度及其多步推理的有效性。该数据集为开发更高效的代码搜索、导航与理解工具提供了关键的基准测试资源。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,自动化代码理解与定位任务逐渐成为研究热点。plain_gemini25flash-20t_prompterv2-200-400数据集于近期由研究人员构建,依托开源社区平台HuggingFace发布,其核心研究问题聚焦于评估大型语言模型在代码库中精准定位特定函数或文件的能力。该数据集基于SymPy数学库的特定版本,通过结构化对话交互形式,旨在推动智能编程助手与代码检索系统的性能边界,对提升软件维护效率与自动化开发工具智能化水平具有潜在影响力。
当前挑战
该数据集致力于解决代码定位任务中的核心挑战,即如何在庞大且复杂的代码库中准确识别目标函数或文件,这要求模型具备深层次的代码语义理解与上下文推理能力。在构建过程中,研究人员面临数据对齐的困难,仅59%的文件匹配率与34%的函数匹配率反映出代码表征与自然语言查询之间存在显著语义鸿沟;同时,对话交互平均轮数达3.5轮,体现了多轮次精准引导的复杂性,这些因素共同构成了数据集在真实场景应用与模型评估方面的关键瓶颈。
常用场景
经典使用场景
在软件工程与代码智能领域,plain_gemini25flash-20t_prompterv2-200-400数据集主要用于评估和优化大型语言模型在代码定位任务中的性能。该数据集通过模拟真实开发环境中的文件与函数查找场景,为研究者提供了衡量模型理解代码库结构、准确检索目标代码片段能力的基准平台。其典型应用包括测试模型在给定代码库中根据自然语言描述定位特定文件或函数的效果,从而推动代码搜索与导航技术的进步。
解决学术问题
该数据集有效解决了代码智能研究中模型泛化能力不足与上下文理解有限的学术难题。通过提供结构化代码库与多样化查询的交互数据,它支持对模型代码语义理解、长期依赖处理及多轮对话能力的系统性评估。其意义在于为代码定位任务建立了可重复的评测标准,促进了更稳健、高效的代码辅助工具的开发,对提升软件开发自动化水平具有重要影响。
衍生相关工作
围绕该数据集,已衍生出多项聚焦代码检索与对话系统的经典研究。这些工作包括基于多轮交互的代码定位模型优化、跨项目代码搜索算法的改进,以及结合符号执行与机器学习混合方法的探索。相关成果进一步拓展了代码智能的应用边界,为自动化软件工程领域提供了新的方法论与工具链。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作