five

GSO

收藏
github2025-05-30 更新2025-06-01 收录
下载链接:
https://github.com/gso-bench/gso
下载链接
链接失效反馈
官方服务:
资源简介:
GSO(全球软件优化)是一个用于评估语言模型在开发高性能软件方面能力的基准测试。它提供了100多个具有挑战性的优化任务,涵盖10个代码库,涉及多个领域和编程语言。每个任务提供一个代码库和性能测试作为精确的规范,要求代理优化代码库,并根据专家开发者的提交进行测量。

GSO (Global Software Optimization) is a benchmark designed to evaluate the capabilities of large language models (LLMs) in developing high-performance software. It provides over 100 challenging optimization tasks spanning 10 codebases across multiple domains and programming languages. Each task offers a codebase and performance tests as precise specifications, requiring AI Agents to optimize the codebase, with performance measured against submissions from expert developers.
创建时间:
2025-05-30
原始信息汇总

GSO数据集概述

数据集简介

  • 名称:GSO (Global Software Optimization)
  • 用途:评估语言模型在开发高性能软件方面的能力
  • 特点:包含100+个具有挑战性的优化任务,覆盖10个不同领域和编程语言的代码库

核心内容

  • 任务构成
    • 每个任务提供一个存在性能瓶颈的代码库
    • 包含性能测试作为精确规范
    • 要求生成优化补丁以提高运行时效率
    • 以专家开发者的优化作为成功标准

数据集获取

  • HuggingFace地址:https://huggingface.co/datasets/gso-bench/gso
  • 加载代码: python from datasets import load_dataset gso = load_dataset(gso-bench/gso, split=test)

相关资源

  • Docker镜像:https://hub.docker.com/repository/docker/slimshetty/gso/general
  • 官方文档:https://gso-bench.github.io/

使用方式

  1. 评估工具

    • 构建Docker镜像
    • 运行评估脚本
    • 详细文档:src/gso/harness/README.md
  2. 收集框架

    • 四步流程创建自定义GSO任务
    • 详细文档:src/gso/collect/README.md

许可信息

  • 许可证类型:MIT
搜集汇总
数据集介绍
main_image_url
构建方式
GSO数据集的构建采用了系统化的四步流程,首先通过大型语言模型筛选GitHub代码库中的性能优化相关提交,随后识别受影响的高层API接口,进而为每个API-提交组合生成针对性的性能测试用例,最终通过自动化测试验证优化效果。该框架融合了静态代码分析与动态性能剖析技术,确保每个任务都包含真实的性能瓶颈场景和可量化的优化目标。
使用方法
研究者可通过HuggingFace平台直接加载数据集,利用预构建的评估工具链进行自动化测试。典型工作流程包括配置Docker运行环境、加载待优化代码库、执行模型生成的补丁,并通过标准化测试套件验证性能提升幅度。数据集配套的收集框架支持扩展新任务,允许用户按照既定流程构建自定义的软件优化评估场景。
背景与挑战
背景概述
GSO(Global Software Optimization)是由GSO团队于2025年推出的一个专门用于评估语言模型在软件开发优化任务中表现的基准数据集。该数据集聚焦于软件性能优化这一核心研究问题,涵盖了10个不同领域和编程语言的代码库,包含100多项具有挑战性的优化任务。每个任务均提供原始代码库和性能测试规范,要求智能体生成优化补丁,并与专业开发人员的优化提交进行对比评估。GSO的推出填补了语言模型在软件工程性能优化领域评估工具的空白,为自然语言处理、机器学习与软件工程的交叉研究提供了重要支撑。
当前挑战
GSO数据集主要面临双重挑战。在领域问题层面,软件性能优化涉及复杂的时空复杂度权衡、硬件架构适配及算法改进等多维因素,要求模型具备跨层次的代码理解与重构能力。构建过程中的挑战则体现在:性能相关提交的精准提取需要结合静态分析与动态追踪技术;自动化生成具有判别力的性能测试需解决基准稳定性与噪声过滤问题;而跨语言、跨平台的任务统一评估框架则面临标准化度量与执行环境隔离的技术难题。
常用场景
经典使用场景
在软件工程领域,GSO数据集被广泛应用于评估语言模型在代码优化任务中的表现。通过提供包含性能瓶颈的代码库和精确的性能测试,GSO为研究人员提供了一个标准化的平台,用于测试和比较不同模型在代码优化方面的能力。经典使用场景包括自动化代码优化、性能提升测试以及模型在真实软件开发环境中的适应性评估。
解决学术问题
GSO数据集解决了软件工程和机器学习交叉领域的多个关键学术问题。首先,它为评估语言模型在代码优化任务中的性能提供了标准化基准,填补了现有研究中的空白。其次,通过提供多样化的代码库和性能测试,GSO帮助研究人员深入理解模型在不同编程语言和领域中的优化能力。此外,数据集还促进了自动化代码优化技术的发展,为未来的研究奠定了基础。
实际应用
在实际应用中,GSO数据集被广泛用于开发自动化代码优化工具和性能测试框架。软件开发团队可以利用GSO来评估和提升其代码库的性能,而机器学习研究者则可以通过该数据集训练和测试新的优化模型。此外,GSO还为教育领域提供了宝贵的资源,帮助学生和开发者理解代码优化的实际应用和挑战。
数据集最近研究
最新研究方向
在软件工程与人工智能交叉领域,GSO数据集作为评估语言模型性能优化能力的前沿工具,近期研究聚焦于自动化代码优化与智能软件开发代理的效能提升。该数据集通过整合10个代码库中的100余项复杂优化任务,为研究者提供了衡量模型在真实场景下性能改进能力的标准化平台。随着大语言模型在代码生成领域的突破性进展,GSO正成为验证模型理解深层性能瓶颈、生成高效补丁能力的关键基准。其独特的专家级优化提交对比机制,不仅推动了智能编程助手的发展,也为软件性能优化的自动化研究设立了新的评估范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作