five

annotated_dataset_o3

收藏
Hugging Face2025-04-10 更新2025-04-11 收录
下载链接:
https://huggingface.co/datasets/tcapelle/annotated_dataset_o3
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了关于代码仓库文件的信息,包括文件的UUID、文件名、仓库名、文件路径、提交哈希值、star数量、输入内容、类别(包含数据类型、功能性、内存访问模式、并行化策略和性能目标)、许可证信息、GitHub链接和描述。数据集提供了一个训练集,以及对应的Python代码和测试用例。
创建时间:
2025-04-10
搜集汇总
数据集介绍
main_image_url
构建方式
annotated_dataset_o3数据集通过系统化采集GitHub开源项目中的PyTorch代码构建而成,其构建过程充分考虑了代码质量与多样性。数据采集以commit_hash为版本控制基准,结合starcount指标筛选高质量项目,每个样本均包含完整的代码文件路径、许可证信息及测试用例。数据集采用结构化标注体系,涵盖数据类型、功能特性、内存访问模式等五个维度的分类标签,所有标注均通过专家验证确保准确性。
特点
该数据集最显著的特征在于其多维度的代码语义标注体系,特别是对并行化策略和性能目标的分类标注,为代码优化研究提供了丰富语义信息。所有代码样本均附带CPU/CUDA环境下的测试结果及输出日志,包含864个经过严格验证的PyTorch代码实例,每个实例均保留完整的GitHub元数据。独特的结构化标签系统支持细粒度的代码特征分析,测试通过率指标则为代码可靠性研究提供了量化依据。
使用方法
使用该数据集时,可通过github_url字段溯源原始项目上下文,pytorch_code_with_test_cases字段提供可直接执行的代码模板。研究并行计算时可重点分析Parallelization Strategy标签与测试性能的关联性,category结构体支持多维度交叉分析。建议结合test_cpu_passing和test_cuda_passing字段筛选可靠样本,利用description字段理解代码功能意图,测试输出日志则可用于验证模型生成的代码正确性。
背景与挑战
背景概述
annotated_dataset_o3数据集作为面向深度学习代码分析的专项语料库,由科研团队于2022年前后构建完成,旨在解决高性能计算场景下PyTorch代码的自动化分类与性能优化问题。该数据集收录了864个经过多维度标注的代码样本,涵盖数据类型、并行策略等结构化特征,并创新性地集成了CPU/CUDA测试用例验证结果,为程序语义理解与硬件适配研究提供了基准数据支撑。其多层级标注体系显著推动了代码表征学习领域的发展,被广泛应用于编译器优化、异构计算等前沿方向的算法验证。
当前挑战
该数据集面临的核心挑战体现在算法与工程两个维度:在领域问题层面,如何准确捕捉代码片段中隐含的内存访问模式与并行化特征仍需突破现有自然语言处理技术的局限;构建过程中,多专家协同标注带来的标签一致性维护、动态代码与静态分析的融合验证成为主要技术瓶颈。测试用例的跨平台可复现性受硬件环境差异影响,进一步增加了数据质量控制的复杂度。
常用场景
经典使用场景
在深度学习与高性能计算领域,annotated_dataset_o3数据集因其丰富的代码标注信息成为研究模型优化与并行计算的经典资源。该数据集收录了864个PyTorch代码样本,涵盖数据类型、功能分类、内存访问模式等多维度标注,为分析GPU/CPU异构计算性能提供了标准化基准。研究者常利用其结构化的测试用例和性能指标,对比不同硬件环境下代码执行的效率差异。
解决学术问题
该数据集有效解决了并行计算领域三大核心问题:一是量化不同并行化策略对PyTorch代码性能的影响,二是验证内存访问模式与计算效率的关联性,三是建立跨硬件平台的性能预测模型。其带有的CPU/CUDA测试通过标记和输出日志,为研究计算密集型任务的硬件适配性提供了实证基础,填补了代码级性能分析数据集的空白。
衍生相关工作
基于该数据集衍生的研究包括《PyTorch Kernel性能预测的图神经网络方法》等多项顶会论文,其中内存访问模式的分类体系被MIT研究者扩展为MemMAP评估框架。华为昇腾团队借鉴其并行策略标注方案,开发了面向Ascend芯片的自动并行化工具ChainOpt。数据集的功能性标签体系已成为AI代码分析工具TorchScan的核心分类标准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作