multilingual-code-comments

Name: multilingual-code-comments
Creator: AISE research lab at TU Delft
Published: 2025-04-24 03:42:50
License: 暂无描述

Hugging Face2025-04-24 更新2025-04-26 收录

下载链接：

https://huggingface.co/datasets/AISE-TUDelft/multilingual-code-comments

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含由大型语言模型（LLM）生成的不同语言的代码注释，如CodeQwen、StarCoder、Granite、CodeLlama和CodeGemma。数据集分为英语、中文、荷兰语、波兰语和希腊语五个子集，每个子集包含500个代码注释。注释是通过查询GitHub API获取常见词汇并从存储库中收集数据生成的。数据集还包括专家对生成注释的评价、错误代码以及用于比较原始和生成注释的指标。README提供了数据集特征的描述、生成注释的过程以及如何加载数据集子集的说明。

This dataset contains code comments in various languages generated by large language models (LLMs), including CodeQwen, StarCoder, Granite, CodeLlama, and CodeGemma. It is divided into five subsets corresponding to English, Chinese, Dutch, Polish, and Greek, with each subset containing 500 code comments. The comments were generated by querying the GitHub API to retrieve common vocabulary and collecting data from software repositories. Additionally, the dataset includes expert evaluations of the generated comments, erroneous code samples, and metrics for comparing original and generated comments. The accompanying README file provides descriptions of the dataset's characteristics, the process of generating the comments, and instructions on how to load each subset of the dataset.

提供机构：

AISE research lab at TU Delft

创建时间：

2025-04-24

搜集汇总

数据集介绍

构建方式

在代码注释生成领域，multilingual-code-comments数据集通过系统化方法构建而成。研究团队从GitHub API获取五种语言（英语、中文、荷兰语、波兰语和希腊语）的代码文件，基于OpenSubtitles2016语料库筛选高频词汇，每个语言收集500个样本。通过严格的预处理流程，包括长度过滤、语言检测和内容清洗，确保数据质量。特别采用多模型并行生成策略，覆盖CodeQwen、StarCoder等主流代码生成模型，形成跨语言的对比研究基础。

使用方法

研究者可通过Hugging Face数据集库便捷加载特定语言子集，如中文配置只需调用load_dataset函数指定相应参数。数据集支持端到端的研究流程：从原始代码分析、模型预测比对到质量评估。典型应用包括跨语言代码生成能力测评、错误模式分析、自动评估指标验证等。各模型输出字段的并行存储结构便于开展对比实验，而标准化的错误标签体系则支持细粒度的性能诊断。

背景与挑战

背景概述

随着大型语言模型（LLM）在代码生成和理解任务中的广泛应用，其在多语言环境下的表现逐渐成为研究热点。multilingual-code-comments数据集由Promise 2025会议的研究团队构建，旨在探究LLM在英语、中文、荷兰语、波兰语和希腊语等五种语言中生成代码注释的能力。该数据集基于GitHub API收集了2,500个代码注释样本，并利用CodeQwen1.5-7B、StarCoder2-7B等主流代码生成模型进行多语言注释生成实验，填补了非英语代码注释生成研究的空白。

当前挑战

该数据集面临的核心挑战主要体现在两方面：领域问题层面，多语言代码注释生成需解决语言差异性导致的语法结构、术语表达不一致问题，以及低资源语言数据稀疏性对模型性能的影响；构建过程层面，需克服跨语言注释的准确提取与清洗、模型上下文长度限制下的样本筛选，以及多语言注释质量评估体系的建立等难题。此外，注释生成的语义准确性、文化适配性和代码上下文相关性均为亟待突破的技术瓶颈。

常用场景

经典使用场景

在跨语言代码注释生成领域，multilingual-code-comments数据集为研究者提供了丰富的多语言注释样本。该数据集通过整合五种语言的代码注释，包括英语、中文、荷兰语、波兰语和希腊语，为评估大型语言模型在多语言环境下的注释生成能力提供了标准化的测试平台。研究者可以基于该数据集，系统地比较不同模型在语法准确性、语义一致性和文化适应性等方面的表现。

解决学术问题

该数据集有效解决了多语言代码注释生成研究中缺乏高质量基准数据的问题。通过提供专家标注的错误类型和准确率评估，研究者能够深入分析模型在跨语言场景下的常见失败模式，如语法错误、语义偏差和文化不适配等。这为改进模型的多语言处理能力提供了实证基础，推动了代码生成领域的国际化发展。

实际应用

在实际开发环境中，该数据集支持构建智能化的多语言代码文档工具。开发团队可利用其训练模型自动生成符合本地化需求的代码注释，显著提升跨国协作项目的可维护性。数据集中的错误分类体系还能指导开发更精准的质量检测算法，帮助识别多语言注释中的潜在问题。

数据集最近研究