malteklaes/cpp-code-code_search_net-style
收藏Hugging Face2024-04-20 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/malteklaes/cpp-code-code_search_net-style
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要包含C++编程语言的代码片段,用于训练编程语言模型。数据集的结构包括数据实例、数据字段和数据分割。数据实例由函数代码及其文档组成,数据字段包括ID和实际代码行,数据分割包括训练集、测试集和验证集。此外,数据集还提供了引用信息,说明了数据集的来源和扩展情况。
该数据集主要包含C++编程语言的代码片段,用于训练编程语言模型。数据集的结构包括数据实例、数据字段和数据分割。数据实例由函数代码及其文档组成,数据字段包括ID和实际代码行,数据分割包括训练集、测试集和验证集。此外,数据集还提供了引用信息,说明了数据集的来源和扩展情况。
提供机构:
malteklaes
原始信息汇总
数据集概述
许可证
- Apache-2.0
任务类别
- 文本生成
- 填充掩码
语言
- C++ 编程语言
数据集大小
- 1K<n<10K
数据集配置
- config_name: cpp
- features:
- name: func_code_string dtype: string
- splits:
- name: train num_examples: 50000
- name: test num_examples: 10000
- name: validation num_examples: 10000
- download_size: 0
- dataset_size: 0
数据集结构
- 数据实例:
- 包含函数代码及其文档
- 包含函数元数据,如来源仓库
- 数据字段:
- id: 任意数字
- func_code_string: 实际代码行(每行是一个完整的C++程序)
- 数据分割:
- train: 50000行
- test: 10000行
- validation: 10000行
引用信息
- 数据集来源: https://huggingface.co/datasets/nguyentruong-ins/codeforces_cpp_cleaned/tree/main/data
- 格式和想法来源: https://huggingface.co/datasets/code_search_net
- 扩展作者: Klaes, Malte (2024)



