five

docz-ict/ComBack

收藏
Hugging Face2024-05-17 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/docz-ict/ComBack
下载链接
链接失效反馈
官方服务:
资源简介:
ComBack是一个大规模多平台编译器后端代码数据集,来源于GCC和LLVM的178个目标平台。数据集包含三个主要任务:语句级补全、下一语句建议和代码生成。数据集的划分包括训练集、验证集和测试集,并且针对不同任务和平台进行了详细的划分和统计。

ComBack是一个大规模多平台编译器后端代码数据集,来源于GCC和LLVM的178个目标平台。数据集包含三个主要任务:语句级补全、下一语句建议和代码生成。数据集的划分包括训练集、验证集和测试集,并且针对不同任务和平台进行了详细的划分和统计。
提供机构:
docz-ict
原始信息汇总

数据集概述

数据集名称

  • ComBack

数据集语言

  • Code

数据集标签

  • C++/C Code
  • Compiler Backend

许可证

  • cc-by-4.0

数据集配置

  • Statement-Level Completion
    • 训练集路径: Code_Completion/statement_level/train*
    • 验证集路径: Code_Completion/statement_level/valid*
    • 测试集路径: Code_Completion/statement_level/test*
  • Next-Statement Suggestion
    • 训练集路径: Code_Completion/next_statement/train*
    • 验证集路径: Code_Completion/next_statement/valid*
    • 测试集路径: Code_Completion/next_statement/test*
  • Code Generation
    • 训练集路径: Code_Generation/train*
    • 验证集路径: Code_Generation/valid*
    • 测试集路径: Code_Generation/test*

数据集来源

  • GCC
    • 总目标平台数: 77
    • 总功能数: 43,299
    • 总KLoC: 883.7
  • LLVM
    • 总目标平台数: 101
    • 总功能数: 138,940
    • 总KLoC: 4,847.5

数据集任务

  • Statement-Level Completion: 完成当前语句。
  • Next-Statement Suggestion: 预测下一个语句。
  • Code Generation: 根据自然语言描述生成函数。

数据集组织

  • Code_Generation/ 和 Code_Completion/**

    • 任务: Statement-Level Completion
      • 训练集: 128,899 (11.36M Token)
      • 验证集: 16,112 (1.43M Token)
      • 测试集: 16,113 (1.43M Token)
    • 任务: Next-Statement Suggestion
      • 训练集: 173,052 (15.69M Token)
      • 验证集: 21,631 (1.99M Token)
      • 测试集: 21,632 (1.98M Token)
    • 任务: Code Generation
      • 训练集: 36,236 (5.10M Token)
      • 验证集: 4,530 (0.64M Token)
      • 测试集: 4,530 (0.64M Token)
  • New_Target_Generation/Existing_Types/ 和 New_Target_Completion/Existing_Types/**

    • 任务: Statement-Level Completion
      • 训练集: 114,016 (10.20M Token)
      • 验证集: 20,121 (1.81M Token)
      • 测试集: 6,645 (0.58M Token)
    • 任务: Next-Statement Suggestion
      • 训练集: 152,114 (14.10M Token)
      • 验证集: 26,844 (2.49M Token)
      • 测试集: 9,313 (0.83M Token)
    • 任务: Code Generation
      • 训练集: 30,633 (4.44M Token)
      • 验证集: 5,406 (0.79M Token)
      • 测试集: 2,819 (0.37M Token)
  • New_Target_Generation/New_Types/ 和 New_Target_Completion/New_Types/**

    • 任务: Statement-Level Completion
      • 训练集: 87,018 (7.78M Token)
      • 验证集: 15,357 (1.37M Token)
      • 测试集: 2,764 (0.26M Token)
    • 任务: Next-Statement Suggestion
      • 训练集: 113,684 (10.65M Token)
      • 验证集: 20,063 (1.87M Token)
      • 测试集: 4,029 (0.38M Token)
    • 任务: Code Generation
      • 训练集: 21,184 (3.14M Token)
      • 验证集: 3,739 (0.55M Token)
      • 测试集: 1,372 (0.18M Token)
  • Iterative_Expansion_Generation/ 和 Iterative_Expansion_Completion/**

    • 任务: Statement-Level Completion
      • 训练集: 90,316 (8.06M Token)
      • 验证集: 15,940 (1.42M Token)
      • 测试集: 721 (0.04M Token)
    • 任务: Next-Statement Suggestion
      • 训练集: 118,175 (11.04M Token)
      • 验证集: 20,856 (1.94M Token)
      • 测试集: 1,035 (0.06M Token)
    • 任务: Code Generation
      • 训练集: 22,413 (3.30M Token)
      • 验证集: 3,957 (0.58M Token)
      • 测试集: 219 (0.02M Token)
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
ComBack is a large-scale multi-platform compiler backend dataset sourced from GCC and LLVM, featuring 178 target platforms. It supports tasks like statement-level completion, next-statement suggestion, and code generation, with structured splits for training, validation, and testing. The dataset is designed to improve compiler backend development efficiency by providing extensive and well-organized code examples.
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作