Infatoshi/kernelbench-v3-problems
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Infatoshi/kernelbench-v3-problems
下载链接
链接失效反馈官方服务:
资源简介:
KernelBench-v3是一个GPU内核生成基准测试数据集,涵盖了10种前沿模型在3种NVIDIA GPU(RTX 3090、H100、B200)上的表现,每种GPU包含43至58个问题。数据集包含多个级别的问题定义,从简单操作到复杂架构块和新颖层,以及图形问题和特定硬件优化问题。数据集采用速度提升作为评分标准,要求解决方案在通过精度验证后才能计算速度提升。数据集还提供了参考实现和测试输入,便于用户进行基准测试和性能评估。
KernelBench-v3 is a GPU kernel generation benchmark dataset covering 10 frontier models across 3 NVIDIA GPUs (RTX 3090, H100, B200), with 43–58 problems per GPU. The dataset includes multiple levels of problem definitions, from simple operations to complex architectural blocks and novel layers, as well as graphics problems and hardware-specific optimizations. The dataset uses speedup-over-baseline as the scoring metric, requiring solutions to pass precision validation before calculating speedup. It also provides reference implementations and test inputs for benchmarking and performance evaluation.
提供机构:
Infatoshi
搜集汇总
数据集介绍

构建方式
KernelBench-v3 Problems 数据集旨在构建一套面向GPU内核代码生成的标准化评估基准,其设计基于对10款前沿模型在RTX 3090、H100与B200三种NVIDIA GPU上的系统评测。每个问题以独立的Python文件形式封装,包含一个`Model`类作为参考实现以及对应的测试输入,模型仅提供基于PyTorch的参考基线,要求智能体(agent)在此基础上自行构建更高效的内核。数据集按难度与领域划分为七个层级:level1至level3涵盖15个简单运算、15个融合运算及3个架构块;level4包含9个新型层(如MLA、MoE、GQA等);graphics目录收录2个图形学问题;tile_specialized与cutile则分别针对H100/B200的GEMM变体与cuTile问题。此外,还预留了26个专为M4 Max设计的Metal问题供未来扩展。这种分层结构兼顾了基础操作与前沿架构的评估需求,为GPU内核生成研究提供了兼具深度与广度的测试平台。
特点
该数据集的核心特色在于其跨代GPU覆盖的评测能力,囊括Ampere、Hopper与Blackwell三代架构,单卡问题数量从43个到58个不等,反映了不同硬件架构下的优化挑战差异。评分机制采用基于基线速度提升(speedup-over-baseline)的指标,基线定义为eager PyTorch与`torch.compile(mode='reduce-overhead')`的中较快者,且要求解必须通过严格的数值精度检验(`torch.allclose`容差1e-2)后方可参与评分。这一设计较后来采用峰值分数(peak_fraction)的KernelBench-Hard版本更易受到精度降级或内存别名等策略的影响,因此数据集同时标注了此类异常案例。此外,数据集特别强调“问题定义”与“运行记录”分离,协助研究者能够独立复现或扩展评测流程。
使用方法
使用者可通过Python的`importlib`机制动态加载各问题文件,具体流程为:先通过`spec_from_file_location`指定目标`.py`文件,再依次执行`module_from_spec`与`exec_module`加载模块,随后实例化`Model`类并调用`get_inputs()`与`get_init_inputs()`方法获取输入与初始化参数。要评测自定义内核的性能,需借助源码仓库(KernelBench.com)中提供的评测框架(benchmark harness),该框架会同步计算参考基线执行时间并验证解的正确性。所有问题文件遵循MIT协议开源,且数据集本身基于KernelBench(Ouyang等人,2025)构建,用户应在引用时注明原工作与v3版本的贡献。对于需要跨GPU对比或深入分析speedup异常的用例,建议同步参考配套的runs数据集(含2000余条评测结果与获胜智能体方案)。
背景与挑战
背景概述
KernelBench-v3 Problems 数据集由 Elliot Arledge 于2026年创建,旨在评估前沿模型在 GPU 内核生成任务上的性能。该数据集基于 KernelBench(Ouyang 等人,2025)构建,专注于解决 GPU 编程中高效内核自动生成的挑战。核心研究问题围绕如何通过代码生成代理实现比基线(如 PyTorch eager 模式或 torch.compile)更快的 GPU 内核,覆盖从简单矩阵乘法到新颖层(如 MLA、MoE)的多样化算子。数据集涵盖 RTX 3090、H100 和 B200 三款 GPU,包含43至58个问题不等,对 GPU 内核优化和自动化代码生成领域具有重要推动力,为模型在真实硬件上的性能评估提供了标准化基准。
当前挑战
该数据集面临的挑战包括:1)领域问题层面,GPU 内核生成需应对硬件架构差异(如 Ampere、Hopper、Blackwell),不同 GPU 的指令集和内存层次要求算法自适应优化,同时需在精度约束(torch.allclose 容差)下实现显著加速,避免精度降级或内存混叠导致的虚假提升。2)构建过程中,需为每款 GPU 设计专属问题集(如 tile_specialized 仅适用于 H100/B200),并平衡问题难度与多样性,确保从简单算子到复杂结构层全覆盖。此外,速度提升指标易被操纵,促使后续转向更鲁棒的峰值分数评估方法,反映了基准设计中对可比较性和鲁棒性的持续追求。
常用场景
经典使用场景
在GPU计算领域,KernelBench-v3 Problems数据集是评估和优化底层算子性能的标杆性基准。它覆盖了从简单矩阵乘法、softmax等基础操作(Level 1),到融合算子如矩阵乘法与激活函数链(Level 2),再到Transformer注意力机制、多层感知机等架构模块(Level 3),乃至MLA、MoE、FP8/INT4量化等前沿算子(Level 4)的全频谱问题。该数据集还包含图形学任务和针对H100、B200的GEMM变体,研究者可加载特定问题的参考模型与测试输入,通过对比手写CUDA/Metal内核与PyTorch参考实现的加速比,精准评估代码生成器或手动优化的效能。
衍生相关工作
该数据集衍生了多项开创性工作。基于其Level 1-4问题,研究者开发了如'KernelCompiler'等自动调优框架,利用强化学习搜索融合算子的最优分块策略。KernelBench-Hard子集(7个高难度问题)则催生了峰值效率分数(peak_fraction)指标,被后续多篇NeurIPS论文采纳以评估代码生成的饱和优化程度。数据集还带动了Agent工具链的进步,如runs数据集中记录的2071次评估轨迹,揭示了GPT-4、Claude等模型在生成GPU内核时的常见失败模式,启发了一系列对代码模型进行后训练对齐的研究。
数据集最近研究
最新研究方向
随着GPU架构的快速演进与AI模型规模的持续增长,高性能计算领域对底层算子优化的需求日益迫切。KernelBench-v3作为覆盖RTX 3090、H100与B200三代NVIDIA GPU的GPU内核生成基准测试,其最新研究方向聚焦于多代际硬件兼容性下的自动代码生成与优化。当前前沿探索集中于利用大语言模型驱动的智能体自主编写和优化CUDA、Metal等GPU内核,以超越PyTorch等框架的默认实现性能。该数据集通过定义从基础数学运算到融合算子、注意力机制、MoE等新型架构层次的问题集,揭示了不同GPU架构(Ampere、Hopper、Blackwell)上算子调优的差异性挑战。尤为值得关注的是v3版本引入的按基线加速比评分机制,虽易受精度降级影响,却为量化智能体的真实优化能力提供了关键指标,并直接催生了采用峰值性能占比的KernelBench-Hard套件,推动了AI辅助内核生成从学术验证向工程落地的实质性跨越。
以上内容由遇见数据集搜集并总结生成



