five

google/code_x_glue_cc_clone_detection_big_clone_bench

收藏
Hugging Face2024-01-24 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/google/code_x_glue_cc_clone_detection_big_clone_bench
下载链接
链接失效反馈
官方服务:
资源简介:
CodeXGLUE克隆检测-BigCloneBench数据集,用于训练模型以判断两个给定的Java方法是否为彼此的克隆。给定两个代码作为输入,任务是对其进行二元分类(0/1),其中1表示语义等价,0表示其他情况。模型通过F1分数进行评估。该数据集基于BigCloneBench,并按照论文《Detecting Code Clones with Graph Neural Network and Flow-Augmented Abstract Syntax Tree》进行了过滤。数据集的语言为Java编程语言,任务类型为语义相似性分类。

CodeXGLUE克隆检测-BigCloneBench数据集,用于训练模型以判断两个给定的Java方法是否为彼此的克隆。给定两个代码作为输入,任务是对其进行二元分类(0/1),其中1表示语义等价,0表示其他情况。模型通过F1分数进行评估。该数据集基于BigCloneBench,并按照论文《Detecting Code Clones with Graph Neural Network and Flow-Augmented Abstract Syntax Tree》进行了过滤。数据集的语言为Java编程语言,任务类型为语义相似性分类。
提供机构:
google
原始信息汇总

数据集概述

数据集名称

  • 名称: CodeXGlueCcCloneDetectionBigCloneBench
  • 别名: code_x_glue_cc_clone_detection_big_clone_bench

数据集属性

  • 语言: Java
  • 许可证: C-UDA
  • 多语言性: 单语种
  • 大小: 1M<n<10M
  • 来源: 原始数据
  • 任务类别: 文本分类
  • 任务ID: semantic-similarity-classification

数据集结构

  • 特征:

    • id: 整数,样本索引
    • id1: 整数,第一个函数ID
    • id2: 整数,第二个函数ID
    • func1: 字符串,第一个函数的完整文本
    • func2: 字符串,第二个函数的完整文本
    • label: 布尔值,1表示函数不等价,0表示其他
  • 数据分割:

    • 训练集: 901028个样本,2888035029字节
    • 验证集: 415416个样本,1371399358字节
    • 测试集: 415416个样本,1220662565字节

数据集创建

  • 源数据: 从IJaDataset 2.0数据集中挖掘
  • 注释过程: 数据由三位评判者手动标记,通过搜索启发式自动识别潜在克隆

许可证信息

  • 许可证: Computational Use of Data Agreement (C-UDA) License

引用信息

@inproceedings{svajlenko2014towards, title={Towards a big data curated benchmark of inter-project code clones}, author={Svajlenko, Jeffrey and Islam, Judith F and Keivanloo, Iman and Roy, Chanchal K and Mia, Mohammad Mamun}, booktitle={2014 IEEE International Conference on Software Maintenance and Evolution}, pages={476--480}, year={2014}, organization={IEEE} }

@inproceedings{wang2020detecting, title={Detecting Code Clones with Graph Neural Network and Flow-Augmented Abstract Syntax Tree}, author={Wang, Wenhan and Li, Ge and Ma, Bo and Xia, Xin and Jin, Zhi}, booktitle={2020 IEEE 27th International Conference on Software Analysis, Evolution and Reengineering (SANER)}, pages={261--271}, year={2020}, organization={IEEE} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集用于代码克隆检测任务,包含Java方法的成对比较,目标是判断两个方法是否语义等价。数据集基于BigCloneBench构建,经过筛选,适用于训练和评估模型在代码克隆检测上的性能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作