SOL-ExecBench

arXiv2026-03-20 更新2026-03-21 收录

下载链接：

https://github.com/NVIDIA/SOL-ExecBench

下载链接

链接失效反馈

官方服务：

资源简介：

SOL-ExecBench是由英伟达团队构建的GPU内核优化基准数据集，包含从124个生产级及新兴AI模型中提取的235个CUDA内核优化问题，覆盖语言、扩散、视觉、音频、视频及混合架构领域。数据集针对NVIDIA Blackwell GPU设计，包含BF16、FP8和NVFP4精度下的前向与反向计算任务，其核心创新在于以硬件速度极限（Speed-of-Light）作为性能评估标准而非传统软件基线。数据来源包括HuggingFace、Artificial Analysis和arXiv的模型，通过LLM辅助流程从7,400个子图中筛选生成，并配备沙盒化评估工具链。该数据集旨在推动AI代理系统开发接近硬件极限的高效内核，解决快速迭代的GPU特性与复杂模型需求之间的优化鸿沟问题。

SOL-ExecBench is a GPU kernel optimization benchmark dataset constructed by the NVIDIA team. It contains 235 CUDA kernel optimization problems extracted from 124 production-grade and emerging AI models, covering language, diffusion, vision, audio, video, and hybrid architecture domains. This dataset is designed for NVIDIA Blackwell GPUs and includes forward and backward computation tasks under BF16, FP8, and NVFP4 precisions. Its core innovation lies in using the hardware speed limit (Speed-of-Light) as the performance evaluation criterion instead of traditional software baselines. The dataset's data sources include models from HuggingFace, Artificial Analysis, and arXiv; it is screened and generated from 7,400 subgraphs via an LLM-aided workflow, and is equipped with a sandboxed evaluation toolchain. This dataset aims to promote the development of efficient kernels for AI Agent systems that approach hardware speed limits, addressing the optimization gap between rapidly evolving GPU features and complex model requirements.

提供机构：

英伟达

创建时间：

2026-03-20

原始信息汇总

SOL-ExecBench 数据集概述

数据集基本信息

数据集名称：SOL-ExecBench (Speed-Of-Light ExecBench)
发布方：NVIDIA
主要用途：一个严格的GPU内核评估与基准测试框架，用于对使用NVIDIA硬件支持的各种DSL编写的AI生成内核解决方案进行基准测试。
许可证：Apache-2.0
相关链接：
- 数据集地址：https://huggingface.co/datasets/nvidia/SOL-ExecBench
- 排行榜：https://research.nvidia.com/benchmarks/sol-execbench
- 技术报告：https://arxiv.org/abs/2603.19173

核心功能与评估流程

内核评估内容：
1. 检查各种形式的奖励黑客行为。
2. 对照参考解决方案测试数值正确性。
3. 在可复现的条件下进行计时。
排名指标：使用SOL-Score对提交进行排名。该指标基于NVIDIA B200 GPU的理论性能上限（通过SOLAR工具分析获得）来对自定义内核性能进行评分。
支持的内核语言：PyTorch, Triton, CUTLASS, cuDNN, CuTe DSL, cuTile, CUDA C++。

数据集内容与结构

包含的数据集：
1. SOL-ExecBench 数据集
2. FlashInfer Trace 数据集
问题目录结构：
- definition.json：内核规范，包括函数签名、张量形状、数据类型和参考实现。
- workload.jsonl：每行一个JSON对象，定义输入形状、值和容差阈值。
解决方案格式：单独的JSON文件，引用包含内核实现的源文件。
评估输出：跟踪记录（Trace），包含正确性和性能结果。

使用与评估方式

主要工具：sol-execbench 命令行工具。
批量评估脚本：scripts/run_dataset.py，用于评估整个数据集或单个问题。
输出结果：默认保存到 out/run_dataset/ 目录，包含跟踪记录和摘要JSON。

技术依赖与环境

先决条件：
- 安装了NVIDIA Container Toolkit的Docker。
- Hugging Face CLI。
- NVIDIA驱动版本580以上。
环境设置：
1. 通过脚本 ./scripts/download_data.sh 下载基准测试数据。
2. 通过脚本 ./scripts/run_docker.sh --build 构建并启动Docker容器。

引用信息

引用格式：提供了BibTeX格式的引用条目，标题为“SOL-ExecBench: Speed-of-Light Benchmarking for Real-World GPU Kernels Against Hardware Limits”，作者列表包括Edward Lin等，年份为2026年，arXiv编号为2603.19173。

搜集汇总

数据集介绍

构建方式

在人工智能模型架构日益复杂的背景下，SOL-ExecBench的构建遵循了应用驱动、利用最新硬件特性及覆盖完整训练生命周期的核心原则。该数据集从124个涵盖语言、扩散、视觉、音频、视频及混合架构的生产与前沿AI模型中，通过一个由大语言模型辅助的流水线，提取了7400个计算子图，并最终精心筛选出235个基准测试问题。构建过程包括模型准备、子图提取、分层抽样与多轮验证，确保了问题既代表真实生产负载，又能有效激发对Blackwell GPU等新硬件特性的利用。

使用方法

使用SOL-ExecBench进行内核优化评估，需遵循其提供的沙盒化评估框架。用户提交的内核实现将在一个具备GPU时钟锁定、L2缓存清理和子进程隔离的受控环境中执行。评估过程首先验证功能正确性，随后测量绝对运行时间。最终性能以SOL分数呈现，该分数通过将测得时间与数据集内部维护的评分基线及SOLAR计算的速度极限边界进行比较而得出。这一方法旨在提供可靠、可复现且能抵御奖励攻击的评估结果，推动优化工作聚焦于真正的硬件效率提升。

背景与挑战

背景概述

SOL-ExecBench 是由 NVIDIA 研究团队于 2026 年提出的一个专注于 GPU 内核优化的基准测试数据集。该数据集旨在应对智能体 AI 系统在生成和优化 GPU 内核时面临的评估瓶颈，即传统基准测试往往仅关注相对于软件基线的加速比，而非逼近硬件极限的执行效率。SOL-ExecBench 从 124 个前沿和新兴的 AI 生产模型中提取了 235 个 CUDA 内核优化问题，覆盖了语言、扩散、视觉、音频、视频及混合架构等多个领域，并针对 NVIDIA Blackwell GPU 进行了专门优化。其核心创新在于引入了基于硬件速度极限（Speed-of-Light, SOL）的评估目标，通过 SOLAR 管道从 FLOP 计数、字节数和峰值 GPU 吞吐量中解析推导出硬件接地的性能界限，从而为硬件高效优化提供了一个固定且稳定的目标。这一转变重新定义了 GPU 内核基准测试的范式，从超越可变的软件基线转向填补与硬件速度极限之间的剩余差距，对推动高性能计算和 AI 系统优化研究具有重要影响力。

当前挑战

SOL-ExecBench 所解决的核心领域问题是 GPU 内核优化，其挑战在于如何准确评估生成的内核是否接近硬件理论性能极限，而非仅仅优于某个软件实现。传统基准测试依赖速度提升作为主要指标，但无法揭示内核与硬件效率执行之间的剩余优化空间，这在高性能计算和 AI 模型部署中成为关键瓶颈。在数据集构建过程中，研究团队面临多重挑战：首先，需要从多样且快速演进的 AI 模型架构中提取具有代表性的计算子图，确保问题既涵盖当前生产负载又能预示未来趋势；其次，数据集必须包含那些充分利用最新硬件特性（如 Blackwell GPU 的 NVFP4 精度）和低精度格式的问题，这对数据提取和验证流程提出了更高要求；此外，构建稳健的评估框架以抵御智能体优化系统中常见的奖励黑客行为，如并发利用、状态缓存和环境操纵等，也是确保基准测试公正性和可重复性的关键挑战。

常用场景

经典使用场景

在GPU内核优化领域，SOL-ExecBench数据集最经典的使用场景是作为评估智能体AI系统生成和优化CUDA内核能力的基准测试平台。该数据集从124个前沿AI模型中提取了235个内核优化问题，覆盖了语言、扩散、视觉、音频、视频及混合架构等多种模型类型，并针对NVIDIA Blackwell GPU进行了专门设计。研究人员和开发者利用该数据集来系统性地衡量不同优化算法或智能体系统在接近硬件极限性能方面的表现，从而推动高性能计算内核的自动化生成技术发展。

解决学术问题

SOL-ExecBench数据集的核心贡献在于解决了传统基准测试中过度依赖软件基线而非硬件极限的评估偏差问题。它通过引入由SOLAR管道分析得出的硬件速度极限（Speed-of-Light, SOL）界限，为每个优化问题提供了一个稳定且理论可达的性能目标。这使研究能够从“超越可变软件基线”转向“缩小与硬件极限的剩余差距”，从而更准确地量化内核优化的真实潜力与剩余空间，为高性能计算和编译器优化领域提供了更坚实的评估基础。

实际应用

在实际应用中，SOL-ExecBench数据集被广泛用于指导和生产环境中GPU内核的自动化优化流程。例如，AI芯片制造商和云服务提供商可以借助该数据集来评估和提升其内部内核库的性能，确保在BF16、FP8和NVFP4等多种精度下，训练和推理工作负载都能充分利用最新GPU架构的特性。此外，它还为AI驱动的代码生成系统提供了可靠的测试场，帮助开发能够自动编写接近硬件极限性能内核的智能体，从而显著降低手工优化的人力成本并加速新硬件的适配进程。

数据集最近研究