GSO

github2025-05-30 更新2025-06-01 收录

下载链接：

https://github.com/gso-bench/gso

下载链接

链接失效反馈

官方服务：

资源简介：

GSO（全球软件优化）是一个用于评估语言模型在开发高性能软件方面能力的基准测试。它提供了100多个具有挑战性的优化任务，涵盖10个代码库，涉及多个领域和编程语言。每个任务提供一个代码库和性能测试作为精确的规范，要求代理优化代码库，并根据专家开发者的提交进行测量。

GSO (Global Software Optimization) is a benchmark designed to evaluate the capabilities of large language models (LLMs) in developing high-performance software. It provides over 100 challenging optimization tasks spanning 10 codebases across multiple domains and programming languages. Each task offers a codebase and performance tests as precise specifications, requiring AI Agents to optimize the codebase, with performance measured against submissions from expert developers.

创建时间：

2025-05-30

原始信息汇总

GSO数据集概述

数据集简介

名称：GSO (Global Software Optimization)
用途：评估语言模型在开发高性能软件方面的能力
特点：包含100+个具有挑战性的优化任务，覆盖10个不同领域和编程语言的代码库

核心内容

任务构成：
- 每个任务提供一个存在性能瓶颈的代码库
- 包含性能测试作为精确规范
- 要求生成优化补丁以提高运行时效率
- 以专家开发者的优化作为成功标准

数据集获取

HuggingFace地址：https://huggingface.co/datasets/gso-bench/gso
加载代码： python from datasets import load_dataset gso = load_dataset(gso-bench/gso, split=test)

使用方式

评估工具：
- 构建Docker镜像
- 运行评估脚本
- 详细文档：src/gso/harness/README.md
收集框架：
- 四步流程创建自定义GSO任务
- 详细文档：src/gso/collect/README.md

许可信息

许可证类型：MIT

搜集汇总

数据集介绍

构建方式

GSO数据集的构建采用了系统化的四步流程，首先通过大型语言模型筛选GitHub代码库中的性能优化相关提交，随后识别受影响的高层API接口，进而为每个API-提交组合生成针对性的性能测试用例，最终通过自动化测试验证优化效果。该框架融合了静态代码分析与动态性能剖析技术，确保每个任务都包含真实的性能瓶颈场景和可量化的优化目标。

使用方法

研究者可通过HuggingFace平台直接加载数据集，利用预构建的评估工具链进行自动化测试。典型工作流程包括配置Docker运行环境、加载待优化代码库、执行模型生成的补丁，并通过标准化测试套件验证性能提升幅度。数据集配套的收集框架支持扩展新任务，允许用户按照既定流程构建自定义的软件优化评估场景。

背景与挑战

背景概述

GSO（Global Software Optimization）是由GSO团队于2025年推出的一个专门用于评估语言模型在软件开发优化任务中表现的基准数据集。该数据集聚焦于软件性能优化这一核心研究问题，涵盖了10个不同领域和编程语言的代码库，包含100多项具有挑战性的优化任务。每个任务均提供原始代码库和性能测试规范，要求智能体生成优化补丁，并与专业开发人员的优化提交进行对比评估。GSO的推出填补了语言模型在软件工程性能优化领域评估工具的空白，为自然语言处理、机器学习与软件工程的交叉研究提供了重要支撑。

当前挑战

GSO数据集主要面临双重挑战。在领域问题层面，软件性能优化涉及复杂的时空复杂度权衡、硬件架构适配及算法改进等多维因素，要求模型具备跨层次的代码理解与重构能力。构建过程中的挑战则体现在：性能相关提交的精准提取需要结合静态分析与动态追踪技术；自动化生成具有判别力的性能测试需解决基准稳定性与噪声过滤问题；而跨语言、跨平台的任务统一评估框架则面临标准化度量与执行环境隔离的技术难题。

常用场景

经典使用场景

在软件工程领域，GSO数据集被广泛应用于评估语言模型在代码优化任务中的表现。通过提供包含性能瓶颈的代码库和精确的性能测试，GSO为研究人员提供了一个标准化的平台，用于测试和比较不同模型在代码优化方面的能力。经典使用场景包括自动化代码优化、性能提升测试以及模型在真实软件开发环境中的适应性评估。

解决学术问题

GSO数据集解决了软件工程和机器学习交叉领域的多个关键学术问题。首先，它为评估语言模型在代码优化任务中的性能提供了标准化基准，填补了现有研究中的空白。其次，通过提供多样化的代码库和性能测试，GSO帮助研究人员深入理解模型在不同编程语言和领域中的优化能力。此外，数据集还促进了自动化代码优化技术的发展，为未来的研究奠定了基础。

实际应用

在实际应用中，GSO数据集被广泛用于开发自动化代码优化工具和性能测试框架。软件开发团队可以利用GSO来评估和提升其代码库的性能，而机器学习研究者则可以通过该数据集训练和测试新的优化模型。此外，GSO还为教育领域提供了宝贵的资源，帮助学生和开发者理解代码优化的实际应用和挑战。

数据集最近研究

GSO