TritonBench
收藏TritonBench 数据集概述
数据集简介
TritonBench 数据集包含两个不同的通道:TritonBench-G 和 TritonBench-T,每个通道都有其自己的评估框架。详细信息可参考论文 TRITONBENCH: Benchmarking Large Language Model Capabilities for Generating Triton Operators。
数据内容
- TritonBench-G
- 提供两种格式的 Alpaca 指令版本:
- 简单指令:
TritonBench_G_simp_alpac_v1.json - 复杂指令:
TritonBench_G_comp_alpac_v1.json
- 简单指令:
- 包含可执行文件夹 (
TritonBench_G_v1) 和相关统计数据 (TritonBench_G_v1.json)。
- 提供两种格式的 Alpaca 指令版本:
- TritonBench-T
- 提供两种格式的 Alpaca 指令版本:
- 简单指令:
TritonBench_T_simp_alpac_v1.json - 复杂指令:
TritonBench_T_comp_alpac_v1.json
- 简单指令:
- 包含可执行文件夹 (
TritonBench_T_v1) 和相关统计数据 (TritonBench_T_v1.json)。
- 提供两种格式的 Alpaca 指令版本:
- 还包括两组经过过滤的 GitHub 数据:
train_crawl.json(4024 条记录)- 使用 BERT 分数相似性去重。train_synth.json(4133 条记录)- 使用 Jiuci 生成的数据。
- 合并后的 8k 数据集可用于 RAG(Retrieval-Augmented Generation)。
生成数据
提供论文中使用的主要模型的输出结果。
Python 环境
triton = 3.1.0torch >= 2.5.1- 安装后,更新
eval_G和eval_T中的py_interpreter路径。
评估过程
TritonBench-G
-
代码相似性评估:首先使用 CodeBLEU 进行代码相似性评估。详细说明见
../readme_4similarity.md。 -
执行准确性:
-
运行
0_call_acc.py,命令如下: bash 0_call_acc.py --source source/path/or/folder --target target/path/or/folder --GPUs [0,1,2,3] -
使用多个 GPU 可以加速执行。
-
-
执行性能:
- 运行
1_exe_acc.py,命令如下: bash 1_exe_acc.py --folder root/of/multiple/folders/or/folder --GPUs [0,1,2,3]
- 运行
-
效率:
- 最后运行
2_efficiency.py。todo..
- 最后运行
TritonBench-T
对于 TritonBench-T,没有代码相似性评估。只评估调用准确性、执行准确性和速度提升。过程类似:
-
按上述方式运行
0_call_acc.py: bash 0_call_acc.py --source source/path/or/folder --target target/path/or/folder --GPUs [0,1,2,3] -
运行
1_exe_acc.py,指定文件夹和 GPU: bash 1_exe_acc.py --folder root/of/multiple/folders/or/folder --GPUs [0,1,2,3] -
运行
2_efficiency.py。todo..
注意:确保准确性和效率评估按顺序执行。




