docz-ict/ComBack_Plus_Plus

Name: docz-ict/ComBack_Plus_Plus
Creator: docz-ict
Published: 2024-12-13 03:37:08
License: 暂无描述

Hugging Face2024-12-13 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/docz-ict/ComBack_Plus_Plus

下载链接

链接失效反馈

官方服务：

资源简介：

ComBack++是一个大规模、多平台、多语言的编译器后端代码数据集，主要来源于GCC和LLVM后端，涵盖了183个目标平台。数据集支持多种任务，包括语句级补全、下一语句建议、代码生成和程序修复。数据集的来源包括GCC和LLVM，分别统计了不同目标平台的C++函数数量、C++代码行数和机器描述代码行数。数据集的训练、验证和测试集按照特定比例划分，并提供了每个任务的数据量统计。

ComBack++ is a large-scale, multi-platform and multi-language compiler backend code dataset sourced from GCC and LLVM backends corresponding to 183 target platforms. The dataset includes various tasks such as statement-level completion, next-statement suggestion, code generation, and program repair. The dataset is divided into training, validation, and test sets, covering C++ and TableGen/MD languages.

提供机构：

docz-ict

搜集汇总

数据集介绍

构建方式

在编译器后端开发领域，数据集的构建需兼顾规模与多样性。ComBack++数据集从GCC和LLVM两大主流编译框架中系统性地采集了183个目标平台的后端代码，涵盖CPU、MPU、GPU、VLIW、DSP及虚拟平台等多种架构类别。其构建过程通过自动化工具提取C++函数、机器描述代码及TableGen文件，并依据平台类型与代码属性进行结构化整理。数据划分采用特定策略，将RISC-V、ARC、NVPTX等平台作为测试集，其余目标平台按9:1比例分割为训练集与验证集，确保了评估的公正性与泛化能力。

特点

该数据集展现出显著的多维度特性。其规模庞大，总计包含超过23万条代码样本，覆盖C++与TableGen/机器描述代码两种编程范式，为编译器后端任务提供了丰富的语言素材。数据源自实际工业级编译器项目，具备高度的真实性与复杂性，能够反映后端开发中的实际挑战。此外，数据集支持语句级补全、下一语句建议、代码生成与程序修复四大核心任务，每种任务均配有精心设计的输入-输出对，为模型训练与评估提供了清晰的任务定义与基准。

使用方法

为有效利用该数据集，研究者可依据特定任务选择相应配置。数据集以JSON Lines格式组织，每条记录包含代码上下文与目标输出，便于直接加载并进行序列到序列或代码生成模型的训练。在模型开发中，可分别针对C++或TableGen代码进行专项训练，亦可探索跨语言联合学习。评估时，应使用预留的测试集，其包含未见过的目标平台代码，能严格检验模型的泛化性能与实用价值。数据集遵循CC-BY-4.0许可，支持学术与商业用途的广泛探索。

背景与挑战

背景概述

在编译器后端开发领域，长期以来缺乏大规模、多语言的专业代码数据集，制约了人工智能辅助编程工具的发展。为此，研究团队于2025年创建了ComBack++数据集，该数据集由Ming Zhong等学者主导构建，旨在为编译器后端开发提供端到端的支持。其核心研究问题聚焦于如何利用机器学习技术自动化或辅助完成诸如代码补全、生成与修复等后端开发任务。该数据集汇集了GCC与LLVM两大主流编译框架中涵盖183个目标平台的后端代码，包括C++、TableGen及机器描述代码等多种编程语言形式，显著推动了智能编程助手在系统软件领域的应用与研究。

当前挑战

ComBack++数据集致力于应对编译器后端开发中代码智能辅助的核心挑战，具体包括：在领域问题层面，如何精准建模高度专业化且依赖特定硬件架构的代码语义，以完成语句级补全、下一语句建议、代码生成及程序修复等复杂任务；在构建过程层面，挑战源于原始代码的异构性与规模，需从GCC和LLVM中系统性地提取、清洗并规范化海量的C++函数与机器描述代码，同时确保跨多种处理器架构（如CPU、GPU、DSP）的数据代表性与任务划分的合理性，并为不同任务构建高质量的输入-输出对。

常用场景

经典使用场景

在编译器后端开发领域，ComBack++数据集为代码智能辅助任务提供了关键支撑。其经典使用场景聚焦于基于深度学习的代码自动补全与生成，例如在集成开发环境中，模型可利用该数据集训练后，实时预测开发者当前编写的C++或TableGen语句的后续内容，显著提升编译器后端代码的编写效率与准确性。

衍生相关工作

围绕ComBack++数据集，已衍生出一系列重要的研究工作。其直接相关的经典工作包括提出该数据集的学术文献《BePilot: An AI Programming Assistant for Compiler Backend Development》，该工作系统阐述了如何利用此类数据构建AI编程助手。此外，该数据集也为后续探索编译器后端特定代码模式的表征学习、跨语言代码迁移以及基于大语言模型的专用代码生成等方向提供了宝贵的数据基础。

数据集最近研究