drkernel-validation-data

Name: drkernel-validation-data
Creator: HKUST NLP Group
Published: 2026-02-06 16:16:55
License: 暂无描述

Hugging Face2026-02-06 更新2026-02-07 收录

下载链接：

https://huggingface.co/datasets/hkust-nlp/drkernel-validation-data

下载链接

链接失效反馈

官方服务：

资源简介：

DR.Kernel验证数据集（KernelBench Level 2）是一个用于核生成模型验证和评估的数据集。该数据集基于KernelBench Level 2任务构建，包含100个任务样本。数据集的主要目的是评估模型在核优化任务上的性能。数据集结构包括以下字段：data_source（数据来源标签）、prompt（评估提示，包含角色和内容）、reward_model（参考元数据，包括真实实现和风格）、ability（能力标签，此处为核优化）、extra_info（问题元数据，包括名称和问题ID）。数据集以Parquet格式存储，每个样本包含详细的提示信息和参考实现。使用场景包括核生成模型的评估和性能分析。数据集要求在使用时引用原始KernelBench基准作者，并遵循MIT许可证。

提供机构：

HKUST NLP Group

创建时间：

2026-02-06

搜集汇总

数据集介绍

构建方式

在GPU内核生成领域，DR.Kernel验证数据集源自KernelBench Level 2任务，专门用于评估内核生成模型的性能。该数据集通过精心筛选100个独立任务构建而成，每个任务均包含用户提示与参考实现。数据以Parquet格式存储，结构清晰，字段涵盖数据来源、提示信息、奖励模型元数据、能力标签及额外问题信息，确保了评估任务的系统性与可追溯性。

特点

该数据集聚焦于内核优化能力，所有任务均标注为“kernel_optimization”，并采用规则式奖励模型风格。其用户提示长度在4302至5445字符之间，参考实现代码长度介于657至1800字符，呈现出一定的复杂度分布。每个任务具有唯一的问题ID与名称，保证了任务的独立性与多样性，为模型评估提供了丰富且具挑战性的测试场景。

使用方法

使用者可通过Hugging Face Datasets库直接加载该数据集，便捷获取结构化数据列。评估过程可借助DR.Kernel项目提供的专用脚本进行，这些脚本默认指向本数据集路径，支持对DR.Kernel模型或兼容OpenAI的后端基线进行系统化评测。数据集的标准化格式与配套工具链，为研究人员在内核生成领域的模型验证与性能对比提供了高效、可复现的实验基础。

背景与挑战

背景概述

在深度学习与高性能计算领域，GPU内核优化是提升模型推理效率的关键技术。DR.Kernel验证数据集由香港科技大学自然语言处理实验室于2026年发布，作为其研究论文《Dr.Kernel: Reinforcement Learning Done Right for Triton Kernel Generations》的配套评估资源。该数据集基于KernelBench Level 2任务构建，专注于Triton内核生成与优化，旨在评估强化学习模型在自动生成高性能GPU内核方面的能力。其核心研究问题在于解决传统手工编写内核的效率瓶颈，通过自动化方法探索计算图优化与硬件适配的协同设计，对推动编译器技术与自动化代码生成领域的发展具有显著影响力。

当前挑战

该数据集所针对的领域挑战在于GPU内核优化问题的复杂性，涉及计算并行性、内存访问模式与硬件特性之间的精细权衡。传统方法依赖专家经验，难以在多样化的算子与硬件配置中实现通用高效优化。构建过程中的挑战则体现在高质量基准实现的收集与标准化，需确保每个任务的参考实现（ground-truth）既符合功能正确性，又具备高性能特征。同时，数据集的规模与多样性需平衡，当前仅包含100个任务，可能限制了模型在更广泛算子与场景下的泛化能力评估。

常用场景

经典使用场景

在GPU加速计算领域，高效能内核代码的生成与优化是提升深度学习模型推理速度的关键环节。DR.Kernel验证数据集作为KernelBench Level 2任务的评估基准，其经典使用场景集中于对基于强化学习的Triton内核生成模型进行系统性验证与评分。研究人员利用该数据集提供的100个结构化任务，通过标准化的提示与参考实现，量化模型在GPU内核优化能力上的表现，从而推动代码生成技术在硬件感知优化方向的发展。

实际应用

在实际工程应用中，该数据集支撑了自动化GPU内核优化工具链的开发。例如，深度学习框架与编译器团队可借助该数据集训练和验证能够自动将PyTorch模型转换为高性能Triton内核的智能体。这种技术可直接应用于大模型推理加速、科学计算仿真等对计算效率有严苛要求的场景，通过生成比手工优化更具通用性的内核代码，显著降低高性能计算领域的开发门槛与时间成本。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在强化学习驱动的代码生成体系架构上。DR.Kernel论文本身提出了结合规则奖励与迭代精炼的训练范式，为后续研究奠定了方法论基础。同时，其关联项目KernelGYM构建了完整的内核生成训练与评估环境，启发了更多将程序合成、形式化验证与硬件性能建模相结合的研究。这些工作共同推动了面向异构计算设备的智能编译优化技术路线的发展。

以上内容由遇见数据集搜集并总结生成

hkust-nlp/drkernel-validation-data

DR.Kernel验证数据集（KernelBench Level 2）是一个用于内核生成模型验证和评估的数据集，来源于KernelBench Level 2任务。当前版本包含100个任务，每个任务包括数据源标签、评估提示（单用户消息）、参考元数据（包括参考PyTorch实现）、能力标签（内核优化）和问题元数据（名称和问题ID）。数据集结构清晰，提供了详细的使用方法和统计信息，适用于DR.Kerne

Hugging Face2026-02-06 更新40

hkust-nlp/drkernel-rl-data

DR.Kernel RL数据集是一个用于强化学习训练的数据集，主要提供单轮查询池和参考代码元数据，以支持在线多轮滚动和奖励评估。数据集以Parquet格式存储，包含71,996行数据，每行代表一个优化任务。数据集结构包括数据源、提示、能力标签、奖励模型元数据和额外信息等字段。该数据集主要用于KernelGYM环境中的强化学习训练，支持多轮反馈生成和奖励评估。

Hugging Face2026-02-06 更新50

hkust-nlp/drkernel-coldstart-8k

DR.Kernel冷启动数据集用于在强化学习（RL）之前进行监督微调（SFT），以初始化Triton代码生成和迭代优化的能力。数据集包含8,920条多轮对话轨迹，每条轨迹包含10条消息，固定角色顺序。数据以Parquet格式存储，包含多个字段，如messages、uuid、entry_point等。数据集的使用方法包括加载数据集和进行SFT训练。数据集的收集过程涉及从强大的专有教师模型中提取多轮交

Hugging Face2026-02-06 更新120

drkernel-rl-data

DR.Kernel RL 数据集是一个用于强化学习（RL）训练的数据集，专门针对 Triton 内核生成任务。该数据集主要包含一个单轮查询池及相关元数据，用于在 KernelGYM 中进行多轮在线 rollout。数据集以 Parquet 表格形式存储，包含 71,996 行数据，每行代表一个优化任务。主要字段包括：`data_source`（数据源标签）、`prompt`（用于生成的聊天提示，当

Hugging Face2026-02-06 更新110

drkernel-coldstart-8k

DR.Kernel冷启动数据集用于在DR.Kernel中进行监督微调（SFT）以初始化内核生成能力（Triton编码+迭代优化），然后再进行TRLOO/MRS/PR/PRS强化学习。数据集包含8,920条多轮对话轨迹，每条轨迹由5轮对话组成，共10条消息，角色顺序固定为用户和助理交替。数据以Parquet表格形式存储，包含字段如messages（完整的多轮聊天历史）、uuid（样本ID）、entr

Hugging Face2026-02-06 更新60