five

HiggsBoson/CodeSemSim

收藏
Hugging Face2024-11-29 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/HiggsBoson/CodeSemSim
下载链接
链接失效反馈
官方服务:
资源简介:
CodeSemSim是一个基准数据集,旨在评估语言模型在理解代码功能相似性方面的能力,而不仅仅是语法相似性。该数据集包含原始代码片段、功能等效的改写版本以及功能改变的扰动版本。通过抽象语法树(AST)操作管道生成代码变体,确保功能和语法的多样性。数据集结构包括原始代码、改写代码、扰动代码以及相应的元信息。该数据集可用于评估或微调语言模型,以提高其对代码功能的理解。

CodeSemSim is a benchmark designed to evaluate the ability of language models (LMs) to comprehend and differentiate between code snippets based on functional similarity rather than mere syntactic resemblance. The dataset includes original code snippets, functionally equivalent paraphrased versions, and functionality-altered perturbed versions. An Abstract Syntax Tree (AST) manipulation pipeline is used to generate code variations systematically, ensuring functional and syntactic diversity. The dataset structure includes original code, paraphrased code, perturbed code, and corresponding metadata. This dataset can be used to evaluate or fine-tune LMs for better code functionality understanding.
提供机构:
HiggsBoson
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作