multilingual-code-comments-fixed-3

Name: multilingual-code-comments-fixed-3
Creator: AISE research lab at TU Delft
Published: 2026-02-16 15:03:19
License: 暂无描述

Hugging Face2026-02-16 更新2026-02-17 收录

下载链接：

https://huggingface.co/datasets/AISE-TUDelft/multilingual-code-comments-fixed-3

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种语言（中文、荷兰语、英语、希腊语、波兰语）的代码相关数据，每个语言配置具有相同的特征结构。主要特征包括文件ID、内容、代码仓库信息、路径、原始注释，以及多个模型（如Qwen/CodeQwen1.5-7B、bigcode/starcoder2-7b等）的预测结果和准确率评估。每个语言配置包含一个训练集，样本量均为500条，数据大小从17.7MB到25.6MB不等。数据集适用于代码生成、代码注释预测等自然语言处理与代码相关的任务。

提供机构：

AISE research lab at TU Delft

创建时间：

2026-02-16

搜集汇总

数据集介绍

构建方式

在代码生成与自然语言处理交叉领域，数据集的构建往往需要兼顾代码语义与注释的对应关系。multilingual-code-comments-fixed-3数据集通过从开源代码仓库中提取包含注释的代码片段，并采用掩码技术对注释部分进行遮蔽，形成原始代码与掩码后代码的配对。随后，利用多个先进的代码生成模型，如CodeQwen1.5-7B、starcoder2-7b等，对掩码后的代码进行注释预测，生成预测注释。这一过程不仅保留了原始注释作为基准，还记录了各模型的预测结果与专家评估的准确率，从而构建了一个多语言、多模型对比的注释生成数据集。

特点

该数据集的核心特征体现在其多语言覆盖与多模型评估框架上。数据集涵盖了中文、荷兰语、英语、希腊语和波兰语五种语言，每种语言配置包含500个样本，确保了跨语言代码注释研究的代表性。每个样本不仅提供原始代码、原始注释及掩码数据，还集成了五个主流代码生成模型的预测注释、预测结果以及专家评估的准确率与错误代码信息。这种结构使得数据集能够支持对模型在不同语言环境下注释生成性能的细致比较，为多语言代码理解与生成任务提供了丰富的评估维度。

使用方法

在代码注释生成与模型评估的研究中，该数据集可直接用于训练或测试多语言注释生成模型。研究人员可以加载特定语言配置，利用原始代码与掩码数据作为输入，以原始注释或预测注释作为目标，进行模型训练或微调。同时，通过对比各模型的预测注释与专家评估指标，能够系统分析不同模型在注释生成任务上的性能差异、错误模式及语言适应性。数据集的结构化字段，如专家准确率和错误代码，为模型优化与错误分析提供了直接的数据支持，适用于跨语言代码生成、机器翻译质量评估等研究场景。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码注释生成作为提升代码可读性与维护性的关键技术，近年来受到广泛关注。随着多语言编程环境的普及，对非英语代码注释的研究需求日益凸显。Multilingual-Code-Comments-Fixed-3数据集应运而生，其构建旨在系统评估多种主流代码大模型在生成中文、荷兰语、英语、希腊语及波兰语代码注释方面的性能。该数据集通过整合来自不同代码仓库的真实代码片段及其对应注释，为跨语言代码理解与生成任务提供了宝贵的基准资源，推动了多语言代码智能处理技术的发展。

当前挑战

该数据集致力于解决多语言代码注释生成这一核心问题，其挑战在于模型需准确理解代码语义并生成符合目标语言语法与文化习惯的自然语言描述。构建过程中面临多重困难：首先，高质量多语言代码注释数据稀缺，需从开源项目中精心筛选与对齐；其次，注释风格与内容因编程语言和项目而异，统一标注标准难以确立；此外，评估生成注释的准确性需依赖专家判断，人工评估成本高昂且易受主观因素影响。这些挑战共同构成了该领域研究的关键瓶颈。

常用场景

经典使用场景

在代码智能与自然语言处理交叉领域，该数据集为多语言代码注释生成任务提供了基准评估框架。通过整合中文、荷兰语、英语、希腊语和波兰语等多种语言的源代码及其对应注释，数据集支持研究者对大型代码语言模型进行系统化测试。经典使用场景涉及模型在给定代码片段后自动生成高质量注释，评估其跨语言理解与生成能力，从而推动代码摘要和文档自动化技术的发展。

实际应用

在实际软件开发与维护中，该数据集可应用于自动化代码文档生成工具，帮助开发者快速理解多语言代码库的逻辑与功能。通过集成训练后的模型，工具能够为缺乏注释的遗留代码或跨团队协作项目自动生成解释性文本，提升代码可读性和维护效率。此外，数据集支持构建智能编程助手，为教育平台或企业开发环境提供实时代码解释服务，降低多语言编程门槛。

衍生相关工作

基于该数据集衍生的经典工作包括多语言代码表示学习、注释生成模型优化以及跨语言迁移学习研究。例如，研究者利用其多语言特性探索代码与自然语言的对齐机制，开发出增强型预训练策略；同时，数据集催生了针对特定语言注释风格的适配模型，如面向中文代码的注释生成器。这些工作进一步拓展了代码智能的应用边界，为全球化软件开发提供了技术支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集