robust-kbench

Name: robust-kbench
Creator: Sakana AI
Published: 2025-09-16T19:08:30+08:00

arXiv2025-09-16 更新2025-11-21 收录

深度学习

GPU加速计算

数据链接：

https://github.com/SakanaAI/robust-kbench 数据链接链接失效反馈

官方服务：

资源简介：

robust-kbench是一个用于严格评估核性能和正确性的新基准，它测试了各种设置下的提案正确性，支持前向和后向核优化，并专注于现实世界的应用。该数据集包含了250个神经网络的PyTorch模块任务及其相应的CUDA内核生成结果，用于评估LLM驱动的CUDA内核优化框架。数据集还提供了编译、内存访问和数值正确性的软验证工作流程，以准确分类错误的内核。此外，该数据集还包含了一个端到端的智能工作流程，能够将PyTorch代码转换为工作CUDA内核，优化CUDA运行时，并自动融合多个操作。该数据集旨在解决现有CUDA内核生成基准的局限性，并提供了一个更强大的评估框架，以评估LLM生成的CUDA内核的性能和正确性。

robust-kbench is a novel benchmark for rigorously evaluating the performance and correctness of CUDA kernels. It tests the correctness of kernel proposals across various configurations, supports both forward and backward kernel optimization, and focuses on real-world applications. This benchmark includes 250 PyTorch module tasks for neural networks, along with their corresponding CUDA kernel generation results, and is designed for evaluating LLM-driven CUDA kernel optimization frameworks. It also provides soft validation workflows for compilation, memory access, and numerical correctness to accurately classify erroneous kernels. Furthermore, the benchmark contains an end-to-end intelligent workflow that can convert PyTorch code into functional CUDA kernels, optimize CUDA runtime, and automatically fuse multiple operations. This benchmark aims to address the limitations of existing CUDA kernel generation benchmarks, and provides a more robust evaluation framework to assess the performance and correctness of CUDA kernels generated by LLMs.

提供机构：

Sakana AI

创建时间：

2025-09-16

搜集汇总

数据集介绍

构建方式

robust-kbench数据集通过构建一个综合性的评估框架来弥补现有CUDA内核基准测试的不足。该框架采用多层次的测试与验证机制，包括多样化的初始化状态以防止硬编码、多种运行时估计策略以确保性能测量的一致性，以及与多种性能分析工具的集成。具体而言，它利用PyTorch内置的性能分析器获取高层级指标，Clang-tidy进行静态分析，NVIDIA Compute Profiler（NCU）提供硬件级别的详细洞察。这种多维度方法有助于识别潜在优化，同时确保内核在真实执行环境中保持正确性。此外，该数据集还引入了针对常见深度学习工作负载的新基准任务，如MNIST CNN训练、ResNet-18推理和Transformer Llama推理，每个任务支持多种初始化状态、输入配置以及前向和反向传播计算，从而提供更全面的内核鲁棒性和效率评估。

使用方法

使用robust-kbench数据集时，研究人员和开发者可以通过其提供的Python API轻松集成和评估CUDA内核。首先，用户需要准备任务目录，其中包含前向和反向传播的Python函数、配置文件以及CUDA内核文件。接着，利用ParallelKernelExecutor类初始化评估器，指定任务目录和任务特定设置。然后，用户可以加载自定义的CUDA内核，并通过调用torch_eval方法获取PyTorch基准结果，使用test方法验证内核的正确性，最后通过evaluate方法进行性能分析。该API自动处理内核编译、正确性验证和性能分析等复杂步骤，并支持多GPU并行执行，显著简化了评估流程。此外，数据集的开放源代码和详细文档使得用户能够快速上手，并根据需要扩展或定制新的基准任务，从而推动CUDA内核优化研究的进展。

背景与挑战

背景概述

随着深度学习模型复杂度的持续提升，对GPU并行计算能力的需求日益增长，高效CUDA内核的开发成为关键瓶颈。2025年Sakana AI团队推出的robust-kbench数据集，旨在解决现有基准测试中存在的评估漏洞与泛化性不足问题。该数据集聚焦于大语言模型驱动的CUDA内核自动生成与优化，通过构建多维度测试框架，涵盖前向与反向计算、多输入配置及实际应用场景，为低层级GPU代码的可靠性评估提供了标准化工具。其创新性在于整合了进化优化算法与软验证机制，显著提升了内核正确性检测效率，对加速计算与自动编程领域具有重要推动作用。

当前挑战

robust-kbench面临的挑战主要体现在领域问题与构建过程两方面。在领域层面，需应对LLM生成内核存在的基准漏洞利用问题，如通过硬编码输入模式或省略冗余操作伪造性能提升，导致评估结果失真。构建过程中需克服多场景验证的技术难点，包括设计抗攻击的测试用例、实现跨硬件平台的性能一致性度量，以及平衡计算开销与验证精度。此外，数据集还需确保内核在动态输入形状与混合精度环境下的泛化能力，避免过拟合单一测试配置。

常用场景

经典使用场景

在GPU加速计算领域，robust-kbench数据集为评估大语言模型生成的CUDA内核性能提供了标准化测试环境。该数据集通过设计多样化的神经网络任务，包括前向传播与反向传播计算，能够全面检验CUDA内核在真实深度学习工作负载中的执行效率。其经典应用场景体现在为自动化内核生成算法提供基准测试，通过测量内核运行时间与正确性，系统评估不同优化策略在卷积、全连接、归一化等核心算子上的实际加速效果。

解决学术问题

该数据集有效解决了现有基准测试中存在的可利用漏洞问题，消除了因基准设计缺陷导致的虚假性能提升现象。通过引入多配置测试、严格正确性验证和多样化输入形状，确保了性能评估的真实性与泛化能力。在学术研究层面，robust-kbench为研究社区提供了可靠的实验平台，推动了大语言模型在代码生成、程序优化等领域的理论发展，特别是为基于进化算法的CUDA内核自动优化方法建立了严谨的评估标准。

实际应用

在工业实践中，robust-kbench数据集被广泛应用于深度学习框架的性能调优过程中。工程师利用该数据集验证新编译优化策略的实际效果，评估不同硬件平台上CUDA内核的性能表现。芯片制造商可借助该数据集测试其GPU架构对各类计算模式的适应性，为硬件设计提供数据支持。此外，该数据集还被集成到持续集成流程中，用于监测深度学习库版本更新对计算性能的影响，确保关键算子的执行效率不会出现回归。

数据集最近研究

robust-kbench

资源简介：

相关数据集