semeru/Code-Code-CloneDetection-POJ104|代码克隆检测数据集|编程语言处理数据集

hugging_face2023-03-27 更新2024-03-04 收录

代码克隆检测

编程语言处理

下载链接：

https://hf-mirror.com/datasets/semeru/Code-Code-CloneDetection-POJ104

下载链接

链接失效反馈

资源简介：

该数据集用于CodeXGLUE的代码克隆检测任务，基于POJ-104数据集，旨在通过比较源代码的语义相似性来识别代码克隆。数据集包含源代码、问题标签和索引，分为训练、验证和测试集，总计52,000个示例，涵盖104个问题。评估模型性能的指标是MAP@R，即平均精度均值。

提供机构：

semeru

原始信息汇总

数据集概述

基本信息

许可证: MIT
编程语言: C
日期: 2015年，源自论文POJ-104
污染可能性: 很可能
数据大小: 标准分词器

数据集来源与处理

数据集从CodeXGLUE导入，并使用其脚本进行预处理。

数据集位置

在Semeru中的位置: /nfs/semeru/semeru_datasets/code_xglue/code-to-code/Clone-detection-POJ-104

任务定义

任务: 给定一段代码和一组候选代码，返回语义相同的Top K代码。
评估指标: MAP@R分数，其中R在本数据集中为499。

数据格式

每个文件的每一行代表一个函数，包含以下信息:
- code: 源代码
- label: 源代码解决的问题编号
- index: 示例索引

数据统计

	#问题数	#示例数
训练	64	32,000
开发	16	8,000
测试	24	12,000

引用

@inproceedings{mou2016convolutional, title={Convolutional neural networks over tree structures for programming language processing}, author={Mou, Lili and Li, Ge and Zhang, Lu and Wang, Tao and Jin, Zhi}, booktitle={Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence}, pages={1287--1293}, year={2016} }

AI搜集汇总

数据集介绍

构建方式

SEMERU的Code-Code-CloneDetection-POJ104数据集，源自CodeXGLUE，经过特定的预处理脚本处理而成。该数据集以C语言编程问题为对象，采用标准的分词器对代码进行预处理，构建起一个包含训练集、验证集和测试集的完整数据体系。数据集的构建，不仅涉及代码文本的抽取，还包括对应问题的编号以及示例索引的整理，旨在为代码语义相似性检测任务提供基准数据。

特点

本数据集具备鲜明的特点，其数据质量极高，尽管存在污染的可能性，但经过严格的筛选和处理，确保了数据的可靠性和一致性。数据集规模适中，包含了64个问题的32000个训练示例，以及分别针对验证和测试的8000和12000个示例。此外，数据集以MAP@R评分机制作为模型评估标准，使得该数据集在代码克隆检测领域具有标杆性。

使用方法

使用SEMERU的Code-Code-CloneDetection-POJ104数据集，用户需访问Semeru平台指定路径/nfs/semeru/semeru_datasets/code_xglue/code-to-code/Clone-detection-POJ-104进行数据获取。数据以文本格式存储，其中每一行代表一个函数，包含源代码、问题编号和示例索引等信息。用户可根据自身需求，利用这些信息进行模型的训练、验证和测试，以评估模型在代码语义相似性检测任务上的性能。

背景与挑战

背景概述

SEMERU的Code-Code-CloneDetection-POJ104数据集，源自2015年的POJ数据集，其研究成果发表在《Thirtieth AAAI Conference on Artificial Intelligence》。该数据集由Mou Lili等研究人员开发，旨在解决编程语言处理中的代码克隆检测问题，对编程语言处理领域产生了显著影响。数据集采用C语言编写，包含训练、开发和测试三个部分，共计52,000个代码示例，覆盖64个编程问题，是研究代码相似度检测的重要资源。

当前挑战

该数据集在构建过程中所面临的挑战主要包括数据污染问题，标记为'Very Likely'，这意味着数据集中可能含有噪声数据，对模型的训练和评估造成干扰。此外，数据集在处理代码的语义相似度时，如何精确地衡量代码间的相似性，以及如何有效地从大量代码中检索到最相似的代码，是当前研究的主要挑战。评价模型性能的MAP@R指标要求模型在检索相似代码时达到高精度，这对于算法设计提出了较高的要求。

常用场景

经典使用场景

在程序语言处理领域，semeru/Code-Code-CloneDetection-POJ104数据集的典型应用场景是进行代码克隆检测。此任务旨在给定一段代码和一组候选代码，从中找出与其在语义上最为接近的Top K代码。该数据集通过精确度平均值的均值（MAP@R）来评估模型性能，这对于提高代码检索质量和代码库维护效率具有重要意义。

解决学术问题

该数据集解决了学术研究中关于代码相似性识别和代码复用检测的核心问题。通过Code-Code-CloneDetection-POJ104数据集，研究者能够开发出更为高效的算法来识别具有相同功能的代码片段，这对于代码审查、缺陷识别以及软件维护等领域具有显著意义，有助于提升软件工程的研究与实践水平。

衍生相关工作

基于该数据集，已衍生出众多经典工作，如Mou等人在2016年的研究中提出了一种基于卷积神经网络的代码处理方法，该方法能够有效处理程序语言中的树状结构，为后续的代码理解和生成任务提供了新的视角和解决方案。此类研究推动了程序语言处理技术的进步，为软件工程领域带来了深远影响。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

HUSTgearbox

This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。

www.kaggle.com 收录

MealRec+

MealRec+数据集是由武汉理工大学研究团队创建的，旨在支持个性化和健康饮食推荐的研究。该数据集包含7280条记录，涵盖了餐食与菜品之间的关联信息，以及用户与餐食的交互数据。创建过程中，研究团队采用了模拟方法，从用户与菜品交互数据中推导出餐食与菜品的关联及用户与餐食的交互。此外，数据集还利用了世界卫生组织和英国食品标准局的两个著名营养标准来计算餐食的健康评分。MealRec+数据集的应用领域主要集中在通过分析用户偏好和餐食健康性，提供更健康的餐食推荐，以促进用户的健康饮食习惯。

arXiv 收录