CodeClarity-Bench

Hugging Face2025-10-28 更新2025-10-29 收录

下载链接：

https://huggingface.co/datasets/Maryam01/CodeClarity-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

CodeClarity Bench是一个多语言代码摘要的基准测试数据集，支持跨六种编程语言（Python, Java, JavaScript, PHP, Go, Ruby）和七种自然语言（西班牙语，法语，印地语，阿拉伯语，普通话，葡萄牙语）的代码理解任务模型评估。

创建时间：

2025-10-27

原始信息汇总

CodeClarity Bench: A Multilingual Code Summarization Benchmark

概述

CodeClarity Bench是CodeClarity Framework的基准组件，用于在多编程语言和自然语言环境下对代码摘要模型进行严格评估。该数据集支持对代码理解任务中训练或微调的模型摘要能力进行标准化、可复现的比较。

动机

现有摘要基准主要局限于英语自然语言和一两种编程语言。CodeClarity Bench通过提供跨越六种编程语言和七种自然语言的统一测试平台来解决这一差距，促进代码理解领域的跨语言分析和多语言评估。

数据集构成

CodeClarity-Bench包含约7,344个多语言摘要（51个不同代码样本 × 6种编程语言 × 4个模型 × 6种自然语言）。

维度	详情
编程语言	Python, Java, JavaScript, PHP, Go, Ruby
自然语言	西班牙语(ES), 法语(FR), 印地语(HI), 阿拉伯语(AR), 中文(ZH), 葡萄牙语(PT)
函数长度分组	短(≤10行), 中(11–30行), 长(>30行)
评估模型	CodeGemma-7B-IT, Gemma-2-9B-IT, Qwen2.5-Coder-7B-Instruct, DeepSeek-Coder-6.7B-Instruct

每个条目对应一个代码样本，标注有一个模型生成的特定自然语言摘要，并包含模型和编程语言的元数据注释。

数据模式

字段	类型	描述
`id`	string	代码样本的唯一标识符
`programming_language`	string	代码片段的编程语言
`length_bucket`	string	分类的代码长度(`short`, `medium`, `long`)
`code`	string	源代码片段
`docstring`	string	可选包含的文档字符串
`model`	string	生成摘要的模型
`summary_chinese` … `summary_hindi`	string	指定自然语言的模型摘要

引用

如果使用CodeClarity-Bench，请引用：

@misc{madhurima2025codeclarity, title={CodeClarity: A Framework and Benchmark for Evaluating Multilingual Code Summarization}, author={Madhurima Chakraborty, Drishti Sharma, Maryam Sikander and Eman Nisar}, journal={arXiv preprint arXiv:XXXX.XXXXX}, year={2025} }

搜集汇总

数据集介绍

构建方式

在代码理解研究领域，CodeClarity-Bench通过系统化采样策略构建而成。该数据集选取了Python、Java等六种主流编程语言中的51个代表性代码样本，并按照函数长度划分为短、中、长三个层级。通过部署CodeGemma、Gemma-2等四个先进的大语言模型，针对每个代码样本生成涵盖七种自然语言的标准化摘要，最终形成包含7,344条数据的多维评估矩阵。这种构建方式确保了数据在编程语言、代码复杂度和自然语言三个维度的均衡分布。

特点

该数据集最显著的特征在于其多语言交叉设计的完备性。它不仅覆盖六种编程语言的语法特性，还同步包含西班牙语、中文等七种自然语言的代码摘要，为跨语言代码理解研究提供了独特视角。数据集采用统一标注规范，每个样本均包含完整的元数据标识，包括编程语言类型、代码长度分级和生成模型信息。这种结构化设计使得研究者能够从多个维度分析代码摘要模型的性能表现，特别是对于不同语言对之间的迁移学习效果评估具有重要价值。

使用方法

研究者可通过HuggingFace平台直接加载该数据集进行模型评估。使用时应首先根据目标编程语言和自然语言组合筛选数据子集，利用内置的代码长度分级机制控制实验变量。典型应用场景包括：通过对比同一模型在不同语言对上的摘要质量，评估模型的跨语言泛化能力；分析不同长度代码段的摘要生成难度差异；以及作为基准测试集用于新模型的性能验证。数据集的标准化格式支持直接接入主流机器学习框架，确保实验结果的复现性和可比性。

背景与挑战

背景概述

在软件工程与自然语言处理交叉领域，代码摘要技术旨在自动生成描述程序功能的人类可读文本。2025年，由Madhurima Chakraborty等研究者构建的CodeClarity-Bench数据集应运而生，作为CodeClarity框架的核心评测基准，其聚焦于多语言代码摘要任务。该数据集覆盖Python、Java等六种编程语言及中文、阿拉伯语等七种自然语言，通过标准化评估推动代码理解模型的跨语言泛化能力研究，为多语言软件分析领域提供了关键基础设施。

当前挑战

代码摘要领域长期面临自然语言与编程语言双重多样性带来的挑战，传统基准仅支持英语环境与有限编程语言，难以评估模型在真实多语言场景下的表现。构建过程中需协调六种编程语言的语法特性与七种自然语言的文化语境，同时确保代码样本在短、中、长三种长度区间的均衡分布。模型生成的摘要需跨越编程逻辑与自然语言表述的鸿沟，这对数据标注一致性与跨语言质量评估提出了极高要求。

常用场景

经典使用场景

在代码智能研究领域，CodeClarity-Bench数据集作为多语言代码摘要基准，主要用于评估模型对六种编程语言生成七种自然语言摘要的能力。其标准化测试框架支持跨语言代码理解任务的性能比较，涵盖从简短函数到复杂算法的多样化代码片段，为模型泛化性提供系统验证平台。

实际应用

在工业实践中，该数据集支撑的多语言代码摘要技术可增强开发工具链的国际化能力，例如智能文档生成系统能自动产出多语言API文档。集成开发环境借助此类技术可为跨国团队提供本土化代码注释，大幅提升跨地域协作的代码可维护性与知识传递效率。

衍生相关工作

基于该基准衍生的经典研究包括多模态代码理解框架的构建，如融合语法树与语义嵌入的混合模型。后续工作进一步扩展了代码摘要与程序修复的联合训练范式，推动了大语言模型在代码迁移学习中的应用，催生了诸如跨语言代码克隆检测等创新研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集