CASS

github2025-05-16 更新2025-05-26 收录

下载链接：

https://github.com/GustavoStahl/CASS

下载链接

链接失效反馈

官方服务：

资源简介：

CASS数据集是通过多个独立模块构建的，包括Stack v2数据集、合成数据集、OpenCL数据集和基准测试数据集。这些数据集可以通过提供的链接访问。

The CASS dataset is constructed through multiple independent modules, including the Stack v2 dataset, synthetic dataset, OpenCL dataset, and benchmark test dataset. These datasets are accessible via the provided links.

创建时间：

2025-05-01

原始信息汇总

CASS: Cuda-Amd aSSembly 数据集概述

数据集来源

官方仓库地址：https://github.com/GustavoStahl/CASS

硬件要求

CUDA部分需要NVIDIA GPU
HIP部分需要AMD GPU
测试硬件：AMD RX 7900、NVIDIA A100、NVIDIA RTX 4090

执行环境

提供Docker容器确保可复现性
构建命令： bash docker build -t transpiler . docker compose run transpiler

数据集组成

Stackv2样本：https://huggingface.co/datasets/GustavoStahlMBZUAI/transpiler-gpu-stackv2-dataset
合成样本：https://huggingface.co/datasets/GustavoStahlMBZUAI/transpiler-gpu-synthetic-dataset
OpenCL样本：https://huggingface.co/datasets/GustavoStahlMBZUAI/transpiler-gpu-opencl-dataset
基准测试：https://huggingface.co/datasets/Sarim-Hash/cass_bench_new_one

数据处理工具

stackv2_scripts：处理Stack v2数据集，获取CUDA文件并按原始仓库文件树结构组织
hipify：使用AMD HIPify工具将CUDA文件转换为HIP

搜集汇总

数据集介绍

构建方式

在异构计算领域，CASS数据集的构建采用了多模块化设计理念，通过独立脚本组件实现全流程自动化处理。其核心构建流程分为三大模块：基于Stack v2的代码处理系统自动爬取并重组CUDA文件仓库结构，HIPify转换模块实现CUDA到HIP的跨平台代码迁移，以及合成数据生成模块。所有处理过程均在配备NVIDIA和AMD双GPU的硬件环境中完成，并通过Docker容器确保环境一致性，最终形成覆盖真实项目代码、合成样本及OpenCL样本的多源异构数据集。

特点

作为首个专注于CUDA-AMD汇编转换的基准数据集，CASS呈现出显著的异构计算特征。数据集包含从Stack v2精选的原始CUDA代码及其对应HIP转换版本，辅以人工合成的测试用例和OpenCL跨平台样本，形成四类互补数据子集。特别设计的基准测试集包含针对寄存器分配、指令调度等关键编译环节的评估指标，所有样本均保留完整的原始仓库文件树结构和编译环境配置信息，为研究跨架构代码转换提供立体化数据支撑。

使用方法

研究者可通过Hugging Face平台直接获取预处理完成的四个子数据集，其中Stackv2样本适用于真实场景下的代码转换研究，合成样本则便于控制变量分析。使用前需配置包含NVIDIA和AMD GPU的混合计算环境，推荐通过提供的Docker镜像快速复现实验环境。对于特定研究需求，用户可分别运行stackv2_scripts目录下的数据处理脚本或hipify模块中的转换工具，实现自定义数据集的构建与扩展。

背景与挑战

背景概述

CASS数据集由MBZUAI的研究团队于近年开发，专注于解决CUDA与AMD汇编语言之间的转换问题。该数据集的核心研究问题在于如何高效实现不同GPU架构间的代码转换，为异构计算领域提供了重要的研究基础。研究人员通过整合Stack v2数据集、合成样本以及OpenCL样本，构建了一个全面的跨平台GPU代码库，显著促进了高性能计算领域的编译器优化研究。数据集采用模块化设计理念，体现了研究团队对可扩展性和可重复性的高度重视。

当前挑战

CASS数据集面临的主要挑战体现在两个维度：技术实现层面需克服CUDA与HIP指令集之间的语义鸿沟，确保转换后的代码保持功能等效性；数据处理层面需解决大规模代码库的清洗与标注问题，特别是处理来自Stack v2的异构代码格式。构建过程中，研究团队必须设计复杂的自动化流水线来处理不同GPU硬件的特性差异，同时建立有效的质量验证机制来保证数据集可靠性。这些挑战使得数据集的构建成为涉及编译器设计、程序分析和硬件架构的跨学科工程。

常用场景

经典使用场景

在异构计算领域，CASS数据集为研究人员提供了一个独特的资源，用于分析和比较CUDA与AMD GPU汇编代码的转换效果。该数据集通过整合Stack v2样本、合成样本和OpenCL样本，为跨平台GPU代码转换研究提供了丰富的实验材料。特别是在编译器优化和代码性能分析方面，CASS数据集已成为评估跨架构代码转换工具性能的重要基准。

实际应用

在实际应用中，CASS数据集被广泛应用于GPU代码转换工具的开发和测试。工程师们利用该数据集验证HIPify等转换工具的效果，优化跨平台代码的性能。同时，该数据集也为芯片厂商提供了宝贵的参考，帮助他们改进GPU架构设计，提升不同平台间的代码兼容性。在工业界的编译器开发和性能调优中发挥着重要作用。

衍生相关工作

基于CASS数据集，研究者们已经开展了一系列重要工作。其中包括开发更高效的代码转换算法、设计跨平台性能分析工具，以及构建智能代码优化系统。这些衍生工作不仅扩展了数据集的应用范围，还推动了GPU编程领域的创新发展，为异构计算生态系统的完善做出了重要贡献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集