five

cass

收藏
Hugging Face2025-05-16 更新2025-05-17 收录
下载链接:
https://huggingface.co/datasets/MBZUAI/cass
下载链接
链接失效反馈
官方服务:
资源简介:
CASS是一个为跨架构GPU移植提供的第一大规模数据集,它包含了语义对齐的CUDA-HIP源代码对以及它们对应的宿主机/设备汇编代码,适用于NVIDIA (SASS)和AMD (RDNA3)平台。数据集支持源到源的翻译、汇编级别的翻译和基于LLM的GPU代码移植研究。
提供机构:
Mohamed Bin Zayed University of Artificial Intelligence
创建时间:
2025-05-15
搜集汇总
数据集介绍
main_image_url
构建方式
在异构计算架构研究领域,CASS数据集通过多源采集策略构建了跨平台GPU代码映射体系。其训练集整合了三个核心来源:基于大语言模型生成的合成CUDA程序、从StackV2平台筛选的真实代码片段以及开源计算库转换样本。每个样本均经过自动化工具链处理,通过HIPIFY工具实现CUDA到HIP的源码转换,并分别编译生成对应NVIDIA SASS架构与AMD RDNA3架构的设备端汇编代码,同时保留主机端的x86汇编实现,形成完整的四层代码表征体系。
使用方法
针对不同研究需求,数据集提供模块化的访问方案。研究者可通过Hugging Face标准接口加载完整数据集或按需选取特定子集,其中训练集整合了全部合成与真实代码样本,基准测试集则专门用于模型评估。典型应用场景包括基于序列到序列模型的源码级转换、跨平台汇编代码生成、以及端到端的异构代码迁移研究。数据集的层次化结构支持从语义理解到指令优化的多粒度实验设计,为GPU编程语言模型的研究提供标准化基准。
背景与挑战
背景概述
随着异构计算架构的普及,跨平台GPU代码转换成为高性能计算领域的关键研究方向。CASS数据集由MBZUAI研究机构于2025年创建,作为首个大规模跨架构GPU转译数据集,其核心目标在于解决NVIDIA CUDA与AMD HIP平台间的代码语义对齐问题。该数据集通过提供精确对应的源代码与汇编指令对,为编译器优化、程序语义分析及大语言模型驱动的代码转换研究奠定了重要基础,显著推动了多架构GPU编程生态的融合发展。
当前挑战
在跨架构GPU代码转换领域,核心挑战在于处理指令集语义差异与内存模型不一致性,同时确保转换后代码的性能等价性。数据集构建过程中面临双重困难:一方面需通过HIPIFY工具实现CUDA至HIP的自动化转译并保持语义完整性,另一方面须克服不同硬件平台汇编指令的异构性,通过人工验证确保基准测试集在双平台间的可执行性与功能一致性。
常用场景
经典使用场景
在异构计算架构研究领域,CASS数据集作为首个大规模跨架构GPU转译资源,其核心应用聚焦于CUDA与HIP代码的语义对齐分析。通过提供完整的源代码与汇编级对应关系,该数据集为深度学习模型训练提供了精准的跨平台转译样本,特别是在处理NVIDIA SASS与AMD RDNA3架构的指令集映射时,能够有效支撑端到端的代码转换任务。
解决学术问题
该数据集显著推进了GPU编程语言跨架构兼容性研究的深度,通过提供严格验证的语义等价样本,解决了传统转译方法中语义保真度不足的难题。其多层次代码表示形式为编译器优化理论提供了实证基础,使得研究人员能够系统分析主机端与设备端代码的协同优化机制,进而推动异构计算体系结构的理论创新。
实际应用
在工业实践层面,CASS为高性能计算领域提供了标准化转译管道。从物理仿真到图像处理等16个专业领域的基准测试样本,使开发者能够验证跨平台代码的性能等效性。这种能力直接助力于科学计算软件的跨硬件部署,显著降低了将CUDA生态应用迁移至AMD硬件架构的技术门槛。
数据集最近研究
最新研究方向
在异构计算架构快速演进的背景下,CASS数据集为跨架构GPU代码转换研究开辟了新路径。当前研究聚焦于利用大规模语义对齐的CUDA-HIP代码对,探索基于大语言模型的智能代码迁移技术,显著提升了不同硬件平台间的代码兼容性。该数据集还推动了汇编级指令转换机制的研究,特别是在NVIDIA SASS与AMD RDNA3架构的底层交互层面,为多厂商GPU生态融合提供了关键支撑。随着AI加速计算需求的激增,其在科学计算与图形渲染领域的应用正引发广泛关注,为构建统一编程模型奠定了重要基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作