Robust-Kbench-Correct
收藏魔搭社区2025-11-04 更新2025-11-08 收录
下载链接:
https://modelscope.cn/datasets/haiyanqin/Robust-Kbench-Correct
下载链接
链接失效反馈官方服务:
资源简介:
# Robust-Kbench-Correct: CUDA Kernel数据集
## 在ModelScope上使用
```python
from modelscope import dataset_snapshot_download
# 下载数据集
dataset_path = dataset_snapshot_download('haiyanqin/Robust-Kbench-Correct')
# 或者直接使用Dataset类
from modelscope.msdatasets import MsDataset
ds = MsDataset.load('haiyanqin/Robust-Kbench-Correct')
```
## 概述
- **总Kernel数**: 15403
- **总任务数**: 227
- **输出目录**: `extracted_kernels`
## 筛选标准
- **最大数值差异**: 0.001
- **最小加速比(vs Native)**: 0.0x
- **最小加速比(vs Compile)**: 0.0x
## 目录结构
```
extracted_kernels/
├── level_1/
│ ├── level_1_filtered.parquet # 筛选后的数据集
│ ├── statistics.json # 统计信息
│ ├── 100_HingeLoss/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ ├── 10_3D_tensor_matrix_multiplication/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ ├── 11_4D_tensor_matrix_multiplication/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ └── ... (86 more tasks)
├── level_2/
│ ├── level_2_filtered.parquet # 筛选后的数据集
│ ├── statistics.json # 统计信息
│ ├── 100_ConvTranspose3d_Clamp_Min_Divide/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ ├── 10_ConvTranspose2d_MaxPool_Hardtanh_Mean_Tanh/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ ├── 11_ConvTranspose2d_BatchNorm_Tanh_MaxPool_GroupNorm/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ └── ... (95 more tasks)
├── level_3/
│ ├── level_3_filtered.parquet # 筛选后的数据集
│ ├── statistics.json # 统计信息
│ ├── 10_ResNet101/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ ├── 11_VGG16/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ ├── 12_VGG19/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ └── ... (37 more tasks)
├── SUMMARY.json
└── README.md
```
## 加速比分类说明
| 分类目录 | 加速比范围 | 说明 |
|---------|-----------|------|
| speedup_10x_plus | ≥10x | 显著加速 |
| speedup_5x_10x | 5x-10x | 高性能 |
| speedup_2x_5x | 2x-5x | 良好加速 |
| speedup_1.5x_2x | 1.5x-2x | 中等加速 |
| speedup_1.2x_1.5x | 1.2x-1.5x | 轻微加速 |
| speedup_1x_1.2x | 1x-1.2x | 基本持平 |
| speedup_0.8x_1x | 0.8x-1x | 略慢 |
| speedup_below_0.8x | <0.8x | 明显慢 |
## 文件说明
### CUDA文件 (*.cu)
包含完整的CUDA kernel实现代码
### 元数据文件 (*_info.json)
包含以下信息:
- 基本信息:op_name, kernel_name, correct, max_diff
- 性能指标:runtime, speedup
- NCU性能分析数据(如果可用)
- PyTorch性能分析数据(如果可用)
- 其他相关字段
## 使用方法
### 1. 查看特定level的所有kernel
```python
import pandas as pd
df = pd.read_parquet('level_1/level_1_filtered.parquet')
print(df.head())
```
### 2. 读取CUDA代码
```python
with open('level_1/task_name/speedup_2x_5x/kernel_1.cu', 'r') as f:
cuda_code = f.read()
```
### 3. 读取性能元数据
```python
import json
with open('level_1/task_name/speedup_2x_5x/kernel_1_info.json', 'r') as f:
metadata = json.load(f)
print(metadata['performance'])
print(metadata.get('ncu_profile', 'NCU数据不可用'))
```
# Robust-Kbench-Correct:CUDA内核数据集
## 可在ModelScope平台上使用
python
from modelscope import dataset_snapshot_download
# 下载数据集
dataset_path = dataset_snapshot_download('haiyanqin/Robust-Kbench-Correct')
# 或者直接使用Dataset类
from modelscope.msdatasets import MsDataset
ds = MsDataset.load('haiyanqin/Robust-Kbench-Correct')
## 数据集概述
- **总内核(Kernel)数**: 15403
- **总任务数**: 227
- **输出目录**: `extracted_kernels`
## 筛选准则
- **最大数值差异**: 0.001
- **相对于原生(Native)的最小加速比**: 0.0x
- **相对于编译(Compile)的最小加速比**: 0.0x
## 目录结构
extracted_kernels/
├── level_1/
│ ├── level_1_filtered.parquet # 筛选后的数据集
│ ├── statistics.json # 统计信息
│ ├── 100_HingeLoss/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ ├── 10_3D_tensor_matrix_multiplication/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ ├── 11_4D_tensor_matrix_multiplication/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ └── …(另有86个任务)
├── level_2/
│ ├── level_2_filtered.parquet # 筛选后的数据集
│ ├── statistics.json # 统计信息
│ ├── 100_ConvTranspose3d_Clamp_Min_Divide/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ ├── 10_ConvTranspose2d_MaxPool_Hardtanh_Mean_Tanh/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ ├── 11_ConvTranspose2d_BatchNorm_Tanh_MaxPool_GroupNorm/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ └── …(另有95个任务)
├── level_3/
│ ├── level_3_filtered.parquet # 筛选后的数据集
│ ├── statistics.json # 统计信息
│ ├── 10_ResNet101/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ ├── 11_VGG16/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ ├── 12_VGG19/
│ │ ├── speedup_2x_5x/
│ │ │ ├── kernel_1_native_2.5x_compile_2.3x.cu
│ │ │ └── kernel_1_native_2.5x_compile_2.3x_info.json
│ │ └── speedup_5x_10x/
│ └── …(另有37个任务)
├── SUMMARY.json
└── README.md
## 加速比分类说明
| 分类目录 | 加速比范围 | 说明 |
|---------|-----------|------|
| speedup_10x_plus | ≥10x | 显著加速 |
| speedup_5x_10x | 5x-10x | 高性能 |
| speedup_2x_5x | 2x-5x | 良好加速 |
| speedup_1.5x_2x | 1.5x-2x | 中等加速 |
| speedup_1.2x_1.5x | 1.2x-1.5x | 轻微加速 |
| speedup_1x_1.2x | 1x-1.2x | 基本持平 |
| speedup_0.8x_1x | 0.8x-1x | 略慢 |
| speedup_below_0.8x | <0.8x | 明显慢 |
## 文件说明
### CUDA源文件(*.cu)
包含完整的CUDA内核(Kernel)实现代码
### 元数据文件(*_info.json)
包含以下信息:
- 基本信息:操作名称(op_name)、内核名称(kernel_name)、正确性标识(correct)、最大数值差异(max_diff)
- 性能指标:运行时长(runtime)、加速比(speedup)
- NCU性能分析数据(若可用)
- PyTorch性能分析数据(若可用)
- 其他相关字段
## 使用方法
### 1. 查看指定层级的全部内核
python
import pandas as pd
df = pd.read_parquet('level_1/level_1_filtered.parquet')
print(df.head())
### 2. 读取CUDA源文件
python
with open('level_1/task_name/speedup_2x_5x/kernel_1.cu', 'r') as f:
cuda_code = f.read()
### 3. 读取性能元数据
python
import json
with open('level_1/task_name/speedup_2x_5x/kernel_1_info.json', 'r') as f:
metadata = json.load(f)
print(metadata['performance'])
print(metadata.get('ncu_profile', 'NCU数据不可用'))
提供机构:
maas
创建时间:
2025-11-03



