google/code_x_glue_cc_clone_detection_big_clone_bench
收藏数据集概述
数据集名称
- 名称: CodeXGlueCcCloneDetectionBigCloneBench
- 别名: code_x_glue_cc_clone_detection_big_clone_bench
数据集属性
- 语言: Java
- 许可证: C-UDA
- 多语言性: 单语种
- 大小: 1M<n<10M
- 来源: 原始数据
- 任务类别: 文本分类
- 任务ID: semantic-similarity-classification
数据集结构
-
特征:
- id: 整数,样本索引
- id1: 整数,第一个函数ID
- id2: 整数,第二个函数ID
- func1: 字符串,第一个函数的完整文本
- func2: 字符串,第二个函数的完整文本
- label: 布尔值,1表示函数不等价,0表示其他
-
数据分割:
- 训练集: 901028个样本,2888035029字节
- 验证集: 415416个样本,1371399358字节
- 测试集: 415416个样本,1220662565字节
数据集创建
- 源数据: 从IJaDataset 2.0数据集中挖掘
- 注释过程: 数据由三位评判者手动标记,通过搜索启发式自动识别潜在克隆
许可证信息
- 许可证: Computational Use of Data Agreement (C-UDA) License
引用信息
@inproceedings{svajlenko2014towards, title={Towards a big data curated benchmark of inter-project code clones}, author={Svajlenko, Jeffrey and Islam, Judith F and Keivanloo, Iman and Roy, Chanchal K and Mia, Mohammad Mamun}, booktitle={2014 IEEE International Conference on Software Maintenance and Evolution}, pages={476--480}, year={2014}, organization={IEEE} }
@inproceedings{wang2020detecting, title={Detecting Code Clones with Graph Neural Network and Flow-Augmented Abstract Syntax Tree}, author={Wang, Wenhan and Li, Ge and Ma, Bo and Xia, Xin and Jin, Zhi}, booktitle={2020 IEEE 27th International Conference on Software Analysis, Evolution and Reengineering (SANER)}, pages={261--271}, year={2020}, organization={IEEE} }




