gptclonebench-ccd

Hugging Face2025-06-21 更新2025-06-22 收录

下载链接：

https://huggingface.co/datasets/ohassane/gptclonebench-ccd

下载链接

链接失效反馈

官方服务：

资源简介：

GPTCloneBench是一个包含代码克隆对的私有数据集，旨在辅助大型语言模型（LLM）的训练。该数据集包含Java、Python以及跨这两种语言的代码克隆对。数据集分为训练集和评估集，每个数据点包含两个代码片段、它们的克隆类型、所属语言、是否在语义上相似以及相关的思维链信息。

创建时间：

2025-06-21

原始信息汇总

GPTCloneBench数据集概述

基本信息

许可证: Apache-2.0
语言: 代码
任务: 代码克隆检测
标签:
- 语义克隆
- Moderately type-3
- type-4
- 跨语言
- Java
- Python

数据集配置

配置名称: default
- 训练集: data/train/all_clones*.jsonl
- 评估集: data/eval/eval_clones_gcb.jsonl

数据集描述

来源: 非官方数据集，基于GPTCloneBench GitHub项目创建
用途: 用于训练LLMs项目
官方GitHub页面: https://github.com/srlabUsask/GPTCloneBench

文件结构

文件位置: data/目录下
文件格式: JSONL
- 字段说明:
  - code1 (字符串)
  - code2 (字符串)
  - clone_type (字符串或null)
  - language (字符串: "java", "python", 或 "cross-language-java-python")
  - semantic (布尔值或null)
  - chain_of_thought (字符串)

搜集汇总

数据集介绍

构建方式

GPTCloneBench数据集作为代码克隆检测领域的重要资源，其构建过程体现了严谨的学术方法。该数据集通过系统化采集Java和Python语言的代码片段对，并采用类型标注策略区分不同克隆类别（包括语义克隆、类型3和类型4克隆等）。数据来源基于官方GitHub仓库的规范化处理，每条记录包含代码对、克隆类型、编程语言标识等结构化字段，特别设计了跨语言克隆的标注维度，为研究跨语言代码相似性分析提供了基础支撑。

使用方法

使用该数据集时，研究者可通过加载标准化的JSONL文件快速构建训练集与验证集。每条记录的code1/code2字段可直接用于代码表征学习，clone_type和semantic标签适用于监督学习任务。跨语言样本支持迁移学习研究，而chain_of_thought字段为可解释性分析提供辅助信息。建议配合官方GitHub文档理解数据schema，并注意区分train/eval分割以确保模型评估的严谨性。

背景与挑战

背景概述

GPTCloneBench是由srlabUsask团队构建的一个专注于代码克隆检测的专用数据集，其核心研究问题在于解决跨语言（Java与Python）及不同类型（特别是语义克隆和类型3、类型4克隆）的代码相似性识别。该数据集的构建反映了近年来软件工程领域对智能化代码分析工具的迫切需求，特别是在大型语言模型（LLMs）时代背景下，如何有效训练模型理解代码语义相似性成为关键挑战。数据集通过精心设计的克隆对，为代码克隆检测算法的评估与优化提供了重要基准。

当前挑战

该数据集面临的挑战主要体现在两个维度：在领域问题层面，跨语言代码克隆检测需要克服不同编程语言语法结构和语义表达的巨大差异，而类型3、类型4克隆的识别则要求模型具备深层语义理解能力，这对现有检测算法提出了极高要求。在构建过程中，数据收集与标注的复杂性构成主要障碍，包括准确界定语义克隆的评判标准、处理跨语言代码的功能等价性验证，以及保持克隆类型标注的一致性，这些因素显著增加了数据集构建的技术难度。

常用场景

经典使用场景

在代码克隆检测领域，GPTCloneBench-ccd数据集因其跨语言特性和丰富的语义标注而备受关注。该数据集最经典的使用场景是训练和评估深度学习模型，特别是针对Java和Python代码之间的语义相似性检测。研究人员利用其提供的代码对和克隆类型标签，能够有效验证模型在识别类型3和类型4代码克隆方面的性能，尤其在处理跨语言代码克隆这一复杂任务时展现出独特价值。

解决学术问题

该数据集显著推进了代码克隆检测研究的三个关键问题：跨语言语义克隆的自动化识别、深度学习模型在复杂克隆场景下的泛化能力评估，以及链式思维（chain_of_thought）在代码理解中的应用验证。通过提供精确的语义标注和跨语言代码对，解决了传统数据集在类型4克隆检测中覆盖面不足的缺陷，为研究语言无关的代码表征学习提供了重要基准。

实际应用

在实际开发环境中，GPTCloneBench-ccd支持构建智能代码审查系统，可自动检测项目中的重复代码片段和潜在抄袭行为。其跨语言特性特别适用于多语言技术栈的企业，帮助维持代码库的整洁性和维护效率。教育机构则利用该数据集开发编程教学工具，通过克隆检测指导学生理解不同语言间的算法实现差异。

数据集最近研究