SWE-Lancer

github2025-03-14 更新2025-02-20 收录

下载链接：

https://github.com/openai/SWELancer-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于论文《SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?》的研究，包含与自由职业软件工程相关的数据。

The SWE-Lancer dataset contains data for evaluating the capability of cutting-edge large language models to earn $100,000 in real-world free software engineering.

创建时间：

2025-02-19

原始信息汇总

SWE-Lancer 数据集概述

数据集简介

本数据集及代码用于支持论文 "SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?"。

环境要求

推荐使用Python 3.11版本。

安装步骤

包管理
- 使用预置的虚拟环境或自行创建。
- 使用uv包管理器同步依赖：uv sync，然后激活虚拟环境。
- 或不使用uv，直接创建虚拟环境并安装依赖。
构建Docker镜像
- 根据计算机架构选择相应的Dockerfile。
- 对于Apple Silicon或ARM64系统，运行特定命令。
- 对于Intel-based Mac或x86_64系统，运行另一命令。
环境变量配置
- 确保计算机上有OpenAI API密钥和用户名。
- 从sample.env文件复制内容到.env文件。
运行SWE-Lancer
- 使用uv run python run_swelancer.py运行评估。

扩展运行

需要实现自定义的ComputerInterface类。
修改swelancer_agent.py中的_start_computer函数。
参考实现位于alcatraz_computer_interface.py。

最佳实践

资源管理：实现适当的清理，适当处理容器/虚拟机生命周期。
安全性：实现任务间的适当隔离，适当处理敏感数据。
可扩展性：考虑实现计算资源池，处理并发任务执行。
错误处理：实现健壮的错误处理，提供有意义的错误消息。

贡献指南

对于问题或贡献，请提交issue或pull request。

搜集汇总

数据集介绍

构建方式

SWE-Lancer-Benchmark数据集的构建基于真实的自由软件工程师工作环境，通过模拟软件工程的自由职业市场，对大型语言模型的能力进行评估。该数据集的构建涉及到环境配置、Docker镜像的构建、环境变量的设置等多个步骤，确保评估的准确性和效率。

使用方法

使用SWE-Lancer-Benchmark数据集，首先需要配置Python环境，构建Docker镜像，并设置环境变量。随后，通过运行特定的脚本来启动评估过程。对于大规模的运行，用户需要实现自定义的计算机接口，并与自身的计算基础设施进行集成。

背景与挑战

背景概述

SWE-Lancer-Benchmark数据集是针对软件工程领域的一个评价基准，其旨在评估前沿的大型语言模型在真实世界自由职业软件工程任务中的表现。该数据集由OpenAI的研究人员开发，并在2023年提出。其核心研究问题是如何将大型语言模型应用于实际的软件开发任务，并量化其经济效益。该数据集的发布对软件工程自动化、人工智能在软件开发中的应用等领域产生了重要影响，为相关研究提供了新的视角和评价标准。

当前挑战

在构建SWE-Lancer-Benchmark数据集的过程中，研究人员面临了多方面的挑战。首先，确保数据集的真实性和多样性是一个挑战，因为这需要收集和整合来自不同来源和类型的软件工程项目。其次，构建一个能够模拟真实软件开发环境的评价体系同样具有挑战性，这涉及到对模型性能的准确评估和量化。此外，数据集的构建还需要考虑计算资源的有效管理、任务的安全性隔离以及敏感数据的适当处理等问题。

常用场景

经典使用场景

在软件工程领域，SWE-Lancer-Benchmark数据集之经典使用场景在于评估大型语言模型在真实世界自由职业软件开发中的表现与盈利潜力。该数据集通过模拟真实软件开发任务，使得研究者能够深入探究模型在实际编程任务中的性能表现，为模型优化和功能迭代提供实证依据。

解决学术问题

SWE-Lancer-Benchmark数据集解决了传统模型评估中缺乏真实世界任务数据的问题，为学术界提供了一个全新的视角来评估模型在软件工程领域的实用性和效率。其意义不仅在于推动软件工程研究的发展，也在于为人工智能在软件开发中的应用提供了量化标准。

实际应用

实际应用中，SWE-Lancer-Benchmark数据集被用于指导软件开发者理解大型语言模型在编程任务中的具体表现，进而优化工作流程，提高工作效率。此外，它也帮助人工智能公司评估其产品的市场潜力，为产品迭代和商业决策提供支持。

数据集最近研究