five

google/code_x_glue_cc_clone_detection_poj104

收藏
Hugging Face2024-01-24 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/google/code_x_glue_cc_clone_detection_poj104
下载链接
链接失效反馈
官方服务:
资源简介:
CodeXGLUE Clone-detection-POJ-104数据集用于代码克隆检测任务,输入为一个代码和一组候选代码,任务是返回语义相同的Top K代码。数据集使用POJ-104数据集,并采用MAP评分来评估模型。数据集包含C++编程语言的代码,分为训练集、验证集和测试集,分别包含32500、8500和12000个样本。每个样本包含id、code和label三个字段,其中id为样本索引,code为函数完整文本,label为源代码解决的问题的id。
提供机构:
google
原始信息汇总

数据集概述

数据集名称

  • 名称: CodeXGlueCcCloneDetectionPoj104
  • 别名: code_x_glue_cc_clone_detection_poj_104

数据集属性

  • 语言: C++
  • 许可证: C-UDA
  • 多语言性: 单语种
  • 大小: 10K<n<100K
  • 源数据集: 原始数据
  • 任务类别: 文本检索
  • 任务ID: document-retrieval

数据集结构

  • 特征:
    • id: 整数型 (int32)
    • code: 字符串型 (string)
    • label: 字符串型 (string)
  • 分割:
    • train: 32500个样本,20179075字节
    • validation: 8500个样本,6382433字节
    • test: 12000个样本,7227506字节
  • 下载大小: 13348734字节
  • 数据集大小: 33789014字节

配置

  • 默认配置:
    • train: 数据路径为data/train-*
    • validation: 数据路径为data/validation-*
    • test: 数据路径为data/test-*

数据实例

  • 示例: json { "code": "...", "id": 0, "label": "home" }

数据字段

  • 默认配置:
    • id: 样本索引
    • code: 函数完整文本
    • label: 源代码解决的问题ID

数据分割

  • 默认配置:
    • train: 32000个样本
    • validation: 8000个样本
    • test: 12000个样本
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作