cass

Name: cass
Creator: Mohamed Bin Zayed University of Artificial Intelligence
Published: 2025-05-16 18:55:34
License: 暂无描述

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/MBZUAI/cass

下载链接

链接失效反馈

官方服务：

资源简介：

CASS是一个为跨架构GPU移植提供的第一大规模数据集，它包含了语义对齐的CUDA-HIP源代码对以及它们对应的宿主机/设备汇编代码，适用于NVIDIA (SASS)和AMD (RDNA3)平台。数据集支持源到源的翻译、汇编级别的翻译和基于LLM的GPU代码移植研究。

提供机构：

Mohamed Bin Zayed University of Artificial Intelligence

创建时间：

2025-05-15

搜集汇总

数据集介绍

构建方式

在异构计算架构研究领域，CASS数据集通过多源采集策略构建了跨平台GPU代码映射体系。其训练集整合了三个核心来源：基于大语言模型生成的合成CUDA程序、从StackV2平台筛选的真实代码片段以及开源计算库转换样本。每个样本均经过自动化工具链处理，通过HIPIFY工具实现CUDA到HIP的源码转换，并分别编译生成对应NVIDIA SASS架构与AMD RDNA3架构的设备端汇编代码，同时保留主机端的x86汇编实现，形成完整的四层代码表征体系。

使用方法

针对不同研究需求，数据集提供模块化的访问方案。研究者可通过Hugging Face标准接口加载完整数据集或按需选取特定子集，其中训练集整合了全部合成与真实代码样本，基准测试集则专门用于模型评估。典型应用场景包括基于序列到序列模型的源码级转换、跨平台汇编代码生成、以及端到端的异构代码迁移研究。数据集的层次化结构支持从语义理解到指令优化的多粒度实验设计，为GPU编程语言模型的研究提供标准化基准。

背景与挑战

背景概述

随着异构计算架构的普及，跨平台GPU代码转换成为高性能计算领域的关键研究方向。CASS数据集由MBZUAI研究机构于2025年创建，作为首个大规模跨架构GPU转译数据集，其核心目标在于解决NVIDIA CUDA与AMD HIP平台间的代码语义对齐问题。该数据集通过提供精确对应的源代码与汇编指令对，为编译器优化、程序语义分析及大语言模型驱动的代码转换研究奠定了重要基础，显著推动了多架构GPU编程生态的融合发展。

当前挑战

在跨架构GPU代码转换领域，核心挑战在于处理指令集语义差异与内存模型不一致性，同时确保转换后代码的性能等价性。数据集构建过程中面临双重困难：一方面需通过HIPIFY工具实现CUDA至HIP的自动化转译并保持语义完整性，另一方面须克服不同硬件平台汇编指令的异构性，通过人工验证确保基准测试集在双平台间的可执行性与功能一致性。

常用场景

经典使用场景

在异构计算架构研究领域，CASS数据集作为首个大规模跨架构GPU转译资源，其核心应用聚焦于CUDA与HIP代码的语义对齐分析。通过提供完整的源代码与汇编级对应关系，该数据集为深度学习模型训练提供了精准的跨平台转译样本，特别是在处理NVIDIA SASS与AMD RDNA3架构的指令集映射时，能够有效支撑端到端的代码转换任务。

解决学术问题

该数据集显著推进了GPU编程语言跨架构兼容性研究的深度，通过提供严格验证的语义等价样本，解决了传统转译方法中语义保真度不足的难题。其多层次代码表示形式为编译器优化理论提供了实证基础，使得研究人员能够系统分析主机端与设备端代码的协同优化机制，进而推动异构计算体系结构的理论创新。

实际应用

在工业实践层面，CASS为高性能计算领域提供了标准化转译管道。从物理仿真到图像处理等16个专业领域的基准测试样本，使开发者能够验证跨平台代码的性能等效性。这种能力直接助力于科学计算软件的跨硬件部署，显著降低了将CUDA生态应用迁移至AMD硬件架构的技术门槛。

数据集最近研究