five

malteklaes/cpp-code-code_search_net-style

收藏
Hugging Face2024-04-20 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/malteklaes/cpp-code-code_search_net-style
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集主要包含C++编程语言的代码片段,用于训练编程语言模型。数据集的结构包括数据实例、数据字段和数据分割。数据实例由函数代码及其文档组成,数据字段包括ID和实际代码行,数据分割包括训练集、测试集和验证集。此外,数据集还提供了引用信息,说明了数据集的来源和扩展情况。

该数据集主要包含C++编程语言的代码片段,用于训练编程语言模型。数据集的结构包括数据实例、数据字段和数据分割。数据实例由函数代码及其文档组成,数据字段包括ID和实际代码行,数据分割包括训练集、测试集和验证集。此外,数据集还提供了引用信息,说明了数据集的来源和扩展情况。
提供机构:
malteklaes
原始信息汇总

数据集概述

许可证

  • Apache-2.0

任务类别

  • 文本生成
  • 填充掩码

语言

  • C++ 编程语言

数据集大小

  • 1K<n<10K

数据集配置

  • config_name: cpp
  • features:
    • name: func_code_string dtype: string
  • splits:
    • name: train num_examples: 50000
    • name: test num_examples: 10000
    • name: validation num_examples: 10000
  • download_size: 0
  • dataset_size: 0

数据集结构

  • 数据实例:
    • 包含函数代码及其文档
    • 包含函数元数据,如来源仓库
  • 数据字段:
    • id: 任意数字
    • func_code_string: 实际代码行(每行是一个完整的C++程序)
  • 数据分割:
    • train: 50000行
    • test: 10000行
    • validation: 10000行

引用信息

  • 数据集来源: https://huggingface.co/datasets/nguyentruong-ins/codeforces_cpp_cleaned/tree/main/data
  • 格式和想法来源: https://huggingface.co/datasets/code_search_net
  • 扩展作者: Klaes, Malte (2024)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作