SE Arena
收藏arXiv2025-02-04 更新2025-02-11 收录
下载链接:
https://huggingface.co/spaces/SE-Arena/Software-Engineering-Arena
下载链接
链接失效反馈官方服务:
资源简介:
SE Arena是由Queen’s University的研究人员创建的一个互动平台,旨在评估面向软件工程任务的聊天机器人。该平台提供了一个透明的、开源的排行榜,支持多轮对话工作流程,并能够对端到端的模型进行比较。SE Arena引入了一个名为RepoChat的新功能,可以自动将仓库相关上下文(例如问题、提交、拉取请求)注入对话中,使评估更加接近真实世界的软件开发过程。
提供机构:
Queen’s University
创建时间:
2025-02-04
搜集汇总
数据集介绍

构建方式
SE Arena是一款专为评估软件工程领域基础模型(FMs)的交互式平台。该平台通过用户生成实时评估,支持多轮对话工作流,并引入RepoChat功能,自动将仓库相关上下文(如问题、提交、拉取请求)注入对话中,以增强评估的真实性和实用性。
特点
SE Arena具备以下特点:开放源代码,提供透明的排行榜;支持多轮对话,使模型能够在迭代和上下文丰富的软件工程活动中表现出真实性能;引入RepoChat功能,为模型评估提供更深入的上下文信息;采用多种评价指标,包括Elo分数、平均胜率、Bradley-Terry系数等,提供多维度的模型性能比较。
使用方法
使用SE Arena时,用户首先进行登录,然后在文本框中输入与软件工程相关的问题。平台从预配置的模型池中随机选择两个匿名模型进行公平的比较。用户可以根据模型的初始响应提出后续问题,进行多轮对话。用户可以在任何时候提交投票,平台将根据用户的投票更新排行榜。
背景与挑战
背景概述
SE Arena数据集,由Zhimin Zhao等研究人员于2025年提出,旨在为软件工程(SE)领域的聊天机器人提供一个交互式评估平台。该数据集的核心研究问题是现有评估框架在迭代、上下文丰富的软件工程工作流程中的不足。SE Arena通过支持多轮对话和透明的评估方法,允许多种软件工程工作流的模型比较,引入了RepoChat新特性,自动将仓库相关上下文注入对话中,以实现更真实的世界软件开发过程评估。SE Arena被认为是首个集成这些功能的SE专用评估平台,对软件工程领域的模型评估实践具有显著影响。
当前挑战
SE Arena面临的挑战主要包括:1)如何准确捕捉并评估软件工程领域中模型在迭代、上下文丰富的场景下的表现;2)构建过程中,如何处理和整合多轮对话、保持上下文连贯性,以及如何处理用户反馈和模型响应的动态修订;3)如何确保评估平台不受主观偏见影响,提供客观公正的模型比较结果;4)如何进一步扩展SE Arena的功能,以适应更广泛的软件工程任务和复杂的评估需求。
常用场景
经典使用场景
SE Arena作为一个互动平台,专为评估软件工程领域的聊天机器人而设计,其经典使用场景在于模拟软件工程师在日常工作中与聊天机器人的迭代交互。用户通过发起与软件工程相关的问题,如代码调试、需求细化或代码审查等,平台则随机选择两个匿名的基础模型以供比较。SE Arena的特色功能RepoChat能够自动将仓库相关的上下文信息,如问题、提交、拉取请求等,注入对话中,从而在评估过程中更贴近实际开发流程。
解决学术问题
SE Arena解决了传统静态评估方法无法捕捉真实世界软件工程工作流程的问题。通过支持用户生成实时评估,在多样化的软件工程场景中评估基础模型,SE Arena不仅提供了对模型性能的多维度比较,而且通过迭代多轮对话的评估方式,解决了软件工程任务固有的迭代性和动态性特点,为学术研究提供了更贴近实际应用的评价手段。
衍生相关工作
SE Arena的推出促进了软件工程领域聊天机器人的研究和开发,衍生出了一系列相关工作。例如,研究者可以基于SE Arena收集的数据,分析模型在多轮对话中的表现,开发更高级的评估指标,或者利用SE Arena的框架来训练和测试新的软件工程聊天机器人模型。这些相关工作进一步推动了软件工程领域智能化工具的发展。
以上内容由遇见数据集搜集并总结生成



