five

DCAgent2/swebench_verified_GLM_4_7_Flash_20260424_080521

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_GLM_4_7_Flash_20260424_080521
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 247257754 num_examples: 1500 download_size: 179022090 dataset_size: 247257754 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于SWE-bench Verified基准测试构建,采用GLM-4-7B-Flash模型在软件工程任务中进行代码生成与修复的交互过程。每条数据包含完整的对话历史(conversations),记录了模型与环境的多次交互,内容覆盖从任务描述到最终解决方案的完整链路。数据集标注了模型来源(model与model_provider)、任务标识(task)、运行批次(run_id与trial_name)以及执行结果(result)与验证器输出(verifier_output),共计1500条训练样本,数据总量约247MB。
使用方法
使用者可直接通过Hugging Face Datasets库加载数据,默认分割为训练集。每条数据中,'conversations'字段适用于基于对话的模型微调或行为分析,而'result'与'verifier_output'字段可用于评估模型代码生成任务的准确性与鲁棒性。配合'task'与'episode'标识,研究人员能够针对特定软件工程问题进行细粒度的性能追踪与对比实验。
背景与挑战
背景概述
该数据集名为swebench_verified_GLM_4_7_Flash_20260424_080521,创建于2026年4月24日,由GLM团队基于智谱AI的GLM-4-7B-Flash模型生成,旨在为软件工程领域的大规模语言模型(LLM)评估提供高质量、可验证的基准数据。其核心研究问题在于衡量LLM在真实软件工程任务(如代码修复、功能实现)中的自主代理能力,填补了现有基准(如SWE-bench)在验证可靠性和模型特定表现上的空白。通过集成自动化验证器,该数据集推动了LLM在代码生成与调试领域的实证研究,对评估通用大模型在复杂软件工程场景下的实用性具有重要影响力,尤其为国内GLM系列模型的研发提供了标准化评测工具。
当前挑战
该数据集所解决的领域挑战包括:软件工程中LLM代理的自动代码修复任务缺乏高置信度的验证标准,现有基准常因测试用例不完善或环境依赖导致评估失真,需要构建更严格的验证机制(如verifier_output字段)以提升结果可靠性。构建过程中则面临多重挑战:首先,需从SWE-bench精选1500个已验证任务,确保每个实例均有明确环境配置与正确修复方案;其次,调用GLM-4-7B-Flash模型进行多轮交互式探索时,需平衡推理成本与路径多样性;最后,设计统一的verifier自动化验证流程,需解决跨任务、跨语言的测试适配问题,避免过度拟合评估指标而偏离实际工程需求。
常用场景
经典使用场景
在人工智能领域,代码生成与软件工程任务的自动化评估一直是研究的热点。swebench_verified_GLM_4_7_Flash_20260424_080521数据集专为评估大语言模型在真实世界软件工程场景中的表现而设计。其经典使用场景在于,通过提供完整的对话历史(conversations)、模型信息(model)、任务描述(task)及验证结果(verifier_output)等结构化字段,研究人员能够系统性地评测模型在代码修复、功能实现、缺陷定位等复杂任务上的能力。该数据集特别适合用于构建和验证基于对话式Agent的自动化编程系统,支持对模型输出进行精确的可靠性验证。
解决学术问题
该数据集有效解决了学术界在软件工程与自然语言处理交叉领域面临的若干关键难题。其一,它填补了缺乏高质量、带验证标签的多轮交互式编程数据集的空白,使研究者能够从对话完整性、任务完成度和验证反馈三个维度评测模型。其二,通过引入标准化验证器输出(verifier_output),解决了以往仅依赖自动测试用例或人工评估的局限,为研究模型在真实环境中的鲁棒性和可靠推理提供了基准。其三,数据集包含多种任务和模型配置,有助于探究不同规模、不同供应商的模型在软件工程任务上的表现差异,从而推动构建更具泛化能力的代码智能体。
实际应用
在实际应用中,该数据集为构建和优化智能编程助手、自动化代码审查系统及软件缺陷修复工具提供了坚实的数据基础。企业可以利用该数据集训练和微调模型,使其能够理解多轮交互中的编程需求,并生成可直接部署的代码补丁。此外,数据集中的验证结果可用于构建自动化评估流水线,辅助开发团队快速迭代算法,减少人工审核成本。在持续集成与持续交付(CI/CD)场景中,借助该数据集训练的模型还能实现智能任务分配、代码质量检查和自动修复,显著提升软件开发的整体效率与可靠性。
数据集最近研究
最新研究方向
该数据集聚焦于代码智能体的自主编程能力评估与验证,基于SWE-bench Verified基准构建,记录了GLM-4系列模型在1500个真实软件工程任务上的完整交互轨迹与验证结果。前沿研究方向涵盖:(1)代码大模型的端到端任务完成能力评测,通过标准化环境与严格验证器确保结果可靠性;(2)多轮对话与工具调用模式的深度分析,探索智能体在复杂编程场景中的决策逻辑与错误修复策略;(3)模型版本间性能差异的归因研究,为模型优化提供实证基础。该数据集的出现契合当前AI编程助手从代码生成迈向全流程问题求解的热潮,其结构化交互记录不仅支撑着可复现的基准测试,更为理解大模型在软件开发中的边界与潜力提供了关键数据资源,对推动自主编码智能体从实验室走向实际应用具有里程碑意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作