google/code_x_glue_cc_clone_detection_poj104
收藏Hugging Face2024-01-24 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/google/code_x_glue_cc_clone_detection_poj104
下载链接
链接失效反馈官方服务:
资源简介:
CodeXGLUE Clone-detection-POJ-104数据集用于代码克隆检测任务,输入为一个代码和一组候选代码,任务是返回语义相同的Top K代码。数据集使用POJ-104数据集,并采用MAP评分来评估模型。数据集包含C++编程语言的代码,分为训练集、验证集和测试集,分别包含32500、8500和12000个样本。每个样本包含id、code和label三个字段,其中id为样本索引,code为函数完整文本,label为源代码解决的问题的id。
提供机构:
google
原始信息汇总
数据集概述
数据集名称
- 名称: CodeXGlueCcCloneDetectionPoj104
- 别名: code_x_glue_cc_clone_detection_poj_104
数据集属性
- 语言: C++
- 许可证: C-UDA
- 多语言性: 单语种
- 大小: 10K<n<100K
- 源数据集: 原始数据
- 任务类别: 文本检索
- 任务ID: document-retrieval
数据集结构
- 特征:
id: 整数型 (int32)code: 字符串型 (string)label: 字符串型 (string)
- 分割:
train: 32500个样本,20179075字节validation: 8500个样本,6382433字节test: 12000个样本,7227506字节
- 下载大小: 13348734字节
- 数据集大小: 33789014字节
配置
- 默认配置:
train: 数据路径为data/train-*validation: 数据路径为data/validation-*test: 数据路径为data/test-*
数据实例
- 示例: json { "code": "...", "id": 0, "label": "home" }
数据字段
- 默认配置:
id: 样本索引code: 函数完整文本label: 源代码解决的问题ID
数据分割
- 默认配置:
train: 32000个样本validation: 8000个样本test: 12000个样本
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



