five

LPcode

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/Shinwoo-Park/detecting_llm_paraphrased_code_via_coding_style_features
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为LPcode,包含了人类编写的代码与多种大型语言模型(LLM)生成的释义代码的对。该数据集旨在支持两项任务:一是检测代码是否为LLM释义版本,二是识别是哪个LLM对原始代码进行了释义。为确保数据完整性,该数据集经过筛选,移除了除Apache、BSD和MIT许可证之外的代码,并对敏感信息进行了匿名处理。数据集中包含了正样本(释义代码)和负样本(非释义代码),两者比例为1:1。任务的划分为:一是判断LLM生成的代码是否为人类编写代码的释义版本;二是确定是哪个LLM对原始代码进行了释义。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作