google/code_x_glue_cc_clone_detection_big_clone_bench

Name: google/code_x_glue_cc_clone_detection_big_clone_bench
Creator: google
Published: 2024-01-24 14:19:56
License: 暂无描述

Hugging Face2024-01-24 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/google/code_x_glue_cc_clone_detection_big_clone_bench

下载链接

链接失效反馈

官方服务：

资源简介：

CodeXGLUE克隆检测-BigCloneBench数据集，用于训练模型以判断两个给定的Java方法是否为彼此的克隆。给定两个代码作为输入，任务是对其进行二元分类（0/1），其中1表示语义等价，0表示其他情况。模型通过F1分数进行评估。该数据集基于BigCloneBench，并按照论文《Detecting Code Clones with Graph Neural Network and Flow-Augmented Abstract Syntax Tree》进行了过滤。数据集的语言为Java编程语言，任务类型为语义相似性分类。

提供机构：

google

原始信息汇总

数据集概述

数据集名称

名称: CodeXGlueCcCloneDetectionBigCloneBench
别名: code_x_glue_cc_clone_detection_big_clone_bench

数据集属性

语言: Java
许可证: C-UDA
多语言性: 单语种
大小: 1M<n<10M
来源: 原始数据
任务类别: 文本分类
任务ID: semantic-similarity-classification

数据集结构

特征:
- id: 整数，样本索引
- id1: 整数，第一个函数ID
- id2: 整数，第二个函数ID
- func1: 字符串，第一个函数的完整文本
- func2: 字符串，第二个函数的完整文本
- label: 布尔值，1表示函数不等价，0表示其他
数据分割:
- 训练集: 901028个样本，2888035029字节
- 验证集: 415416个样本，1371399358字节
- 测试集: 415416个样本，1220662565字节

数据集创建

源数据: 从IJaDataset 2.0数据集中挖掘
注释过程: 数据由三位评判者手动标记，通过搜索启发式自动识别潜在克隆

许可证信息

许可证: Computational Use of Data Agreement (C-UDA) License

引用信息

@inproceedings{svajlenko2014towards, title={Towards a big data curated benchmark of inter-project code clones}, author={Svajlenko, Jeffrey and Islam, Judith F and Keivanloo, Iman and Roy, Chanchal K and Mia, Mohammad Mamun}, booktitle={2014 IEEE International Conference on Software Maintenance and Evolution}, pages={476--480}, year={2014}, organization={IEEE} }

@inproceedings{wang2020detecting, title={Detecting Code Clones with Graph Neural Network and Flow-Augmented Abstract Syntax Tree}, author={Wang, Wenhan and Li, Ge and Ma, Bo and Xia, Xin and Jin, Zhi}, booktitle={2020 IEEE 27th International Conference on Software Analysis, Evolution and Reengineering (SANER)}, pages={261--271}, year={2020}, organization={IEEE} }

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集用于代码克隆检测任务，包含Java方法的成对比较，目标是判断两个方法是否语义等价。数据集基于BigCloneBench构建，经过筛选，适用于训练和评估模型在代码克隆检测上的性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集