TritonBench

github2025-03-03 更新2025-02-23 收录

下载链接：

https://github.com/thunlp/TritonBench

下载链接

链接失效反馈

官方服务：

资源简介：

TritonBench包含了两个不同的通道：TritonBench-G和TritonBench-T，每个通道都有自己的评估框架。它提供了两种版本的Alpaca格式指令，以及可执行文件夹和相关统计信息。此外，还包括了两套过滤后的GitHub数据，用于RAG（检索增强生成）。

TritonBench comprises two distinct tracks: TritonBench-G and TritonBench-T, each equipped with its own independent evaluation framework. It provides two versions of Alpaca-formatted instructions, along with executable folders and relevant statistical information. Additionally, it includes two sets of filtered GitHub datasets for Retrieval-Augmented Generation (RAG).

创建时间：

2025-02-20

原始信息汇总

TritonBench 数据集概述

数据集简介

TritonBench 数据集包含两个不同的通道：TritonBench-G 和 TritonBench-T，每个通道都有其自己的评估框架。详细信息可参考论文 TRITONBENCH: Benchmarking Large Language Model Capabilities for Generating Triton Operators。

数据内容

TritonBench-G
- 提供两种格式的 Alpaca 指令版本：
  - 简单指令：TritonBench_G_simp_alpac_v1.json
  - 复杂指令：TritonBench_G_comp_alpac_v1.json
- 包含可执行文件夹 (TritonBench_G_v1) 和相关统计数据 (TritonBench_G_v1.json)。
TritonBench-T
- 提供两种格式的 Alpaca 指令版本：
  - 简单指令：TritonBench_T_simp_alpac_v1.json
  - 复杂指令：TritonBench_T_comp_alpac_v1.json
- 包含可执行文件夹 (TritonBench_T_v1) 和相关统计数据 (TritonBench_T_v1.json)。
还包括两组经过过滤的 GitHub 数据：
- train_crawl.json（4024 条记录）- 使用 BERT 分数相似性去重。
- train_synth.json（4133 条记录）- 使用 Jiuci 生成的数据。
合并后的 8k 数据集可用于 RAG（Retrieval-Augmented Generation）。

生成数据

提供论文中使用的主要模型的输出结果。

Python 环境

triton = 3.1.0
torch >= 2.5.1
安装后，更新 eval_G 和 eval_T 中的 py_interpreter 路径。

评估过程

TritonBench-G

代码相似性评估：首先使用 CodeBLEU 进行代码相似性评估。详细说明见 ../readme_4similarity.md。
执行准确性：
- 运行 0_call_acc.py，命令如下： bash 0_call_acc.py --source source/path/or/folder --target target/path/or/folder --GPUs [0,1,2,3]
- 使用多个 GPU 可以加速执行。
执行性能：
- 运行 1_exe_acc.py，命令如下： bash 1_exe_acc.py --folder root/of/multiple/folders/or/folder --GPUs [0,1,2,3]
效率：
- 最后运行 2_efficiency.py。todo..

TritonBench-T

对于 TritonBench-T，没有代码相似性评估。只评估调用准确性、执行准确性和速度提升。过程类似：

按上述方式运行 0_call_acc.py： bash 0_call_acc.py --source source/path/or/folder --target target/path/or/folder --GPUs [0,1,2,3]
运行 1_exe_acc.py，指定文件夹和 GPU： bash 1_exe_acc.py --folder root/of/multiple/folders/or/folder --GPUs [0,1,2,3]
运行 2_efficiency.py。todo..

注意：确保准确性和效率评估按顺序执行。

搜集汇总

数据集介绍

构建方式

TritonBench数据集的构建分为两个独立通道TritonBench-G与TritonBench-T，各自拥有专属评估框架。数据集包含两种格式的Alpaca指令版本，以及对应的可执行文件夹和统计数据。此外，数据集还包括通过BERT分数相似性去重和利用Jiuci合成的GitHub数据，形成了适用于RAG的8k数据集。

特点

该数据集的特点在于其针对生成Triton操作符的大语言模型能力的评估进行了优化。它不仅提供了简单和复杂的指令集，还包含了用于训练的过滤GitHub数据，以及来自多个主要模型的结果输出，为研究者提供了丰富的实验素材和评估基准。

使用方法

使用TritonBench数据集时，首先需设置Python环境，并更新相关路径。针对TritonBench-G，评估流程包括代码相似性、执行准确性和性能效率等多个维度，而TritonBench-T则侧重于调用准确性、执行准确性和速度提升的评估。评估时需确保各项指标的顺序执行，并可以利用多GPU加速。

背景与挑战

背景概述

TritonBench是一个针对大型语言模型生成Triton操作符能力的评估框架，其研究成果详述于论文[TRITONBENCH: Benchmarking Large Language Model Capabilities for Generating Triton Operators]。该数据集由两部分组成，即TritonBench-G和TritonBench-T，分别针对不同的评估需求。数据集包含了Alpaca格式的简单和复杂指令，以及相应的执行文件夹和统计信息。此外，数据集还提供了经过BERT分数相似性去重和利用Jiuci合成的GitHub数据，可用于RAG（Retrieval-Augmented Generation）任务。TritonBench的创建，为评估大型语言模型在生成Triton操作符方面的能力提供了重要工具，对于推动相关领域的研究具有重要意义。

当前挑战

在研究领域问题上，TritonBench面临的挑战包括如何精确评估大型语言模型生成Triton操作符的能力，尤其是在代码相似性、执行准确性和效率等方面。构建过程中遇到的挑战涉及数据的合成、去重以及跨多个GPU的执行性能优化。此外，评估框架的设计和实施也需考虑到对不同版本Alpaca格式指令的兼容性，以及确保评估过程的准确性和效率。

常用场景

经典使用场景

在计算机编程与机器学习领域中，TritonBench数据集的典型应用场景是评估大型语言模型在生成特定操作符代码的能力。该数据集通过其两个不同的通道，TritonBench-G和TritonBench-T，提供了代码相似性、执行准确性、执行性能和效率等多维度的评价指标，以全面衡量模型的表现。

衍生相关工作

基于TritonBench数据集，研究者们衍生出了一系列相关工作，包括但不限于对现有模型的改进、新型代码生成模型的探索，以及在不同编程语言和任务上的适应性研究，进一步拓宽了该数据集的应用范围和影响力。

数据集最近研究