multilingual-code-comments-fixed

Name: multilingual-code-comments-fixed
Creator: AISE research lab at TU Delft
Published: 2026-01-09 19:17:58
License: 暂无描述

Hugging Face2026-01-09 更新2026-01-11 收录

下载链接：

https://huggingface.co/datasets/AISE-TUDelft/multilingual-code-comments-fixed

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种语言的配置，包括中文、荷兰语、英语、希腊语和波兰语。每个配置包含文件ID、内容、仓库、路径、原始评论以及来自不同模型（如Qwen/CodeQwen1.5-7B、bigcode/starcoder2-7b、ibm-granite/granite-8b-code-base、meta-llama/CodeLlama-7b-hf和google/codegemma-7b）的掩码数据和预测结果。此外，还包括这些模型的专家准确性和错误代码。数据集为每种语言提供了训练集，并指定了字节数和示例数。

提供机构：

AISE research lab at TU Delft

创建时间：

2026-01-02

原始信息汇总

数据集概述

基本信息

数据集名称: multilingual-code-comments-fixed
托管地址: https://huggingface.co/datasets/AISE-TUDelft/multilingual-code-comments-fixed
配置数量: 5
总体数据量: 5个配置，每个配置包含500个训练样本

配置详情

1. Chinese（中文）

样本数量: 500
数据集大小: 21,631,801 字节
下载大小: 8,927,665 字节
数据文件路径: Chinese/train-*

2. Dutch（荷兰语）

样本数量: 500
数据集大小: 24,073,258 字节
下载大小: 9,180,742 字节
数据文件路径: Dutch/train-*

3. English（英语）

样本数量: 500
数据集大小: 20,540,810 字节
下载大小: 8,130,598 字节
数据文件路径: English/train-*

4. Greek（希腊语）

样本数量: 500
数据集大小: 25,626,813 字节
下载大小: 9,167,871 字节
数据文件路径: Greek/train-*

5. Polish（波兰语）

样本数量: 500
数据集大小: 17,775,627 字节
下载大小: 7,233,103 字节
数据文件路径: Polish/train-*

数据结构

所有配置共享以下核心特征：

file_id: 文件标识符
content: 内容
repo: 代码仓库
path: 文件路径
original_comment: 原始注释

模型评估特征

数据集包含针对以下五个代码生成模型的评估数据：

Qwen/CodeQwen1.5-7B
bigcode/starcoder2-7b
ibm-granite/granite-8b-code-base
meta-llama/CodeLlama-7b-hf
google/codegemma-7b

每个模型对应以下三类特征：

masked_data_[模型名]: 掩码后数据
predict_[模型名]: 模型预测
predicted_comment_[模型名]: 预测的注释
expert_accuracy_[模型名]: 专家评估准确率
error_codes_[模型名]: 错误代码

数据划分

所有配置仅包含一个划分：train
每个配置的训练集均包含500个样本

搜集汇总

数据集介绍

构建方式

在软件工程领域，代码注释的生成与理解是提升代码可维护性的关键环节。multilingual-code-comments-fixed数据集通过系统化的流程构建，首先从多个开源代码仓库中收集包含注释的源代码文件，涵盖中文、荷兰语、英语、希腊语和波兰语五种语言。随后，对原始注释进行掩码处理，生成掩码后的代码数据，并利用包括Qwen/CodeQwen1.5-7B、bigcode/starcoder2-7b在内的五种先进代码生成模型，预测恢复注释内容。每个语言配置包含500个样本，确保了数据集的代表性和多样性，为多语言代码注释研究提供了坚实基础。

特点

该数据集的核心特点在于其多语言覆盖与模型比较的深度整合。它不仅包含了原始代码内容、注释及元数据如仓库和路径信息，还详细记录了多种模型对掩码注释的预测结果及其准确性评估。特征字段如masked_data、predicted_comment和expert_accuracy，使得研究者能够直接分析不同模型在跨语言注释生成任务上的性能差异。这种结构设计促进了代码理解与自然语言处理交叉领域的实证研究，尤其适用于评估多语言环境下人工智能模型的泛化能力。

使用方法

使用该数据集时，研究人员可首先通过HuggingFace平台加载特定语言配置，例如中文或英语，以访问训练分割中的样本。数据集适用于训练或评估代码注释生成模型，用户可基于original_comment与predicted_comment字段进行对比分析，衡量模型输出质量。此外，expert_accuracy和error_codes字段支持错误分析和性能基准测试，助力于优化模型在多语言场景下的注释生成策略。该数据集可直接集成到机器学习管道中，为代码智能化研究提供标准化数据支持。

背景与挑战

背景概述

在软件工程与自然语言处理交叉领域，代码注释生成一直是提升代码可读性与维护性的核心研究课题。随着多语言编程环境的普及，非英语代码注释的自动生成需求日益凸显。multilingual-code-comments-fixed数据集应运而生，其构建旨在系统评估多种先进代码大模型在跨语言注释生成任务上的性能。该数据集涵盖了中文、荷兰语、英语、希腊语和波兰语五种语言的代码片段及其对应注释，通过整合来自不同代码仓库的真实数据，为研究者提供了一个标准化基准，以深入探究模型在理解多语言代码语义与生成准确注释方面的能力。

当前挑战

该数据集所针对的领域挑战在于，代码注释生成不仅要求模型精准理解代码的语法结构与功能逻辑，还需生成符合自然语言习惯、与代码意图一致的多语言描述。当前模型在处理非英语代码时，常因训练数据偏差与语言特性差异而表现不佳。在构建过程中，挑战主要集中于多语言代码注释的收集与对齐，需确保原始注释的质量与一致性，同时设计有效的掩码策略以评估模型补全能力。此外，跨模型性能的公平比较也需克服评估指标标准化与错误类型系统分类的难题。

常用场景

经典使用场景

在软件工程与自然语言处理交叉领域，代码注释生成任务长期面临多语言适配的挑战。multilingual-code-comments-fixed数据集通过整合中文、英文、希腊语等五种语言的代码片段与对应注释，为跨语言代码理解研究提供了标准化基准。该数据集最经典的使用场景在于评估和训练多语言代码大模型在注释生成任务上的性能，研究者可利用其掩码代码与预测注释的对应关系，系统分析模型在不同语言语境下的语义捕获能力与生成质量。

解决学术问题

该数据集有效解决了多语言代码语义表示对齐的学术难题。传统代码注释研究多局限于英语语境，难以支撑全球化软件开发中的跨语言协作需求。通过提供多语言平行代码注释数据及五大主流代码模型的预测结果，该数据集使研究者能够量化比较不同模型在低资源语言上的泛化能力，突破单一语言评估的局限性，为构建真正具备跨文化适应性的智能编程辅助系统奠定理论基础。

衍生相关工作

该数据集的发布催生了系列跨语言代码智能研究。以数据集中多模型预测对比为基础，学术界涌现出如跨语言注释风格迁移、低资源语言代码摘要增强等创新方向。部分研究团队进一步扩展了其语言覆盖范围，构建了涵盖东南亚语言的增强版本；另有工作基于该数据集的误差分析结果，提出了针对特定语言语法特性的模型微调范式，推动了代码大模型个性化适配技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集