LPcode
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/Shinwoo-Park/detecting_llm_paraphrased_code_via_coding_style_features
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为LPcode,包含了人类编写的代码与多种大型语言模型(LLM)生成的释义代码的对。该数据集旨在支持两项任务:一是检测代码是否为LLM释义版本,二是识别是哪个LLM对原始代码进行了释义。为确保数据完整性,该数据集经过筛选,移除了除Apache、BSD和MIT许可证之外的代码,并对敏感信息进行了匿名处理。数据集中包含了正样本(释义代码)和负样本(非释义代码),两者比例为1:1。任务的划分为:一是判断LLM生成的代码是否为人类编写代码的释义版本;二是确定是哪个LLM对原始代码进行了释义。



