docz-ict/ComBack
收藏Hugging Face2024-05-17 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/docz-ict/ComBack
下载链接
链接失效反馈官方服务:
资源简介:
ComBack是一个大规模多平台编译器后端代码数据集,来源于GCC和LLVM的178个目标平台。数据集包含三个主要任务:语句级补全、下一语句建议和代码生成。数据集的划分包括训练集、验证集和测试集,并且针对不同任务和平台进行了详细的划分和统计。
ComBack是一个大规模多平台编译器后端代码数据集,来源于GCC和LLVM的178个目标平台。数据集包含三个主要任务:语句级补全、下一语句建议和代码生成。数据集的划分包括训练集、验证集和测试集,并且针对不同任务和平台进行了详细的划分和统计。
提供机构:
docz-ict
原始信息汇总
数据集概述
数据集名称
- ComBack
数据集语言
- Code
数据集标签
- C++/C Code
- Compiler Backend
许可证
- cc-by-4.0
数据集配置
- Statement-Level Completion
- 训练集路径:
Code_Completion/statement_level/train* - 验证集路径:
Code_Completion/statement_level/valid* - 测试集路径:
Code_Completion/statement_level/test*
- 训练集路径:
- Next-Statement Suggestion
- 训练集路径:
Code_Completion/next_statement/train* - 验证集路径:
Code_Completion/next_statement/valid* - 测试集路径:
Code_Completion/next_statement/test*
- 训练集路径:
- Code Generation
- 训练集路径:
Code_Generation/train* - 验证集路径:
Code_Generation/valid* - 测试集路径:
Code_Generation/test*
- 训练集路径:
数据集来源
- GCC
- 总目标平台数: 77
- 总功能数: 43,299
- 总KLoC: 883.7
- LLVM
- 总目标平台数: 101
- 总功能数: 138,940
- 总KLoC: 4,847.5
数据集任务
- Statement-Level Completion: 完成当前语句。
- Next-Statement Suggestion: 预测下一个语句。
- Code Generation: 根据自然语言描述生成函数。
数据集组织
-
Code_Generation/ 和 Code_Completion/**
- 任务: Statement-Level Completion
- 训练集: 128,899 (11.36M Token)
- 验证集: 16,112 (1.43M Token)
- 测试集: 16,113 (1.43M Token)
- 任务: Next-Statement Suggestion
- 训练集: 173,052 (15.69M Token)
- 验证集: 21,631 (1.99M Token)
- 测试集: 21,632 (1.98M Token)
- 任务: Code Generation
- 训练集: 36,236 (5.10M Token)
- 验证集: 4,530 (0.64M Token)
- 测试集: 4,530 (0.64M Token)
- 任务: Statement-Level Completion
-
New_Target_Generation/Existing_Types/ 和 New_Target_Completion/Existing_Types/**
- 任务: Statement-Level Completion
- 训练集: 114,016 (10.20M Token)
- 验证集: 20,121 (1.81M Token)
- 测试集: 6,645 (0.58M Token)
- 任务: Next-Statement Suggestion
- 训练集: 152,114 (14.10M Token)
- 验证集: 26,844 (2.49M Token)
- 测试集: 9,313 (0.83M Token)
- 任务: Code Generation
- 训练集: 30,633 (4.44M Token)
- 验证集: 5,406 (0.79M Token)
- 测试集: 2,819 (0.37M Token)
- 任务: Statement-Level Completion
-
New_Target_Generation/New_Types/ 和 New_Target_Completion/New_Types/**
- 任务: Statement-Level Completion
- 训练集: 87,018 (7.78M Token)
- 验证集: 15,357 (1.37M Token)
- 测试集: 2,764 (0.26M Token)
- 任务: Next-Statement Suggestion
- 训练集: 113,684 (10.65M Token)
- 验证集: 20,063 (1.87M Token)
- 测试集: 4,029 (0.38M Token)
- 任务: Code Generation
- 训练集: 21,184 (3.14M Token)
- 验证集: 3,739 (0.55M Token)
- 测试集: 1,372 (0.18M Token)
- 任务: Statement-Level Completion
-
Iterative_Expansion_Generation/ 和 Iterative_Expansion_Completion/**
- 任务: Statement-Level Completion
- 训练集: 90,316 (8.06M Token)
- 验证集: 15,940 (1.42M Token)
- 测试集: 721 (0.04M Token)
- 任务: Next-Statement Suggestion
- 训练集: 118,175 (11.04M Token)
- 验证集: 20,856 (1.94M Token)
- 测试集: 1,035 (0.06M Token)
- 任务: Code Generation
- 训练集: 22,413 (3.30M Token)
- 验证集: 3,957 (0.58M Token)
- 测试集: 219 (0.02M Token)
- 任务: Statement-Level Completion
搜集汇总
数据集介绍

背景与挑战
背景概述
ComBack is a large-scale multi-platform compiler backend dataset sourced from GCC and LLVM, featuring 178 target platforms. It supports tasks like statement-level completion, next-statement suggestion, and code generation, with structured splits for training, validation, and testing. The dataset is designed to improve compiler backend development efficiency by providing extensive and well-organized code examples.
以上内容由遇见数据集搜集并总结生成



