multilingual-code-comments-fixed-4

Name: multilingual-code-comments-fixed-4
Creator: AISE research lab at TU Delft
Published: 2026-03-10 18:11:49
License: 暂无描述

Hugging Face2026-03-10 更新2026-03-11 收录

下载链接：

https://huggingface.co/datasets/AISE-TUDelft/multilingual-code-comments-fixed-4

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含五种语言（中文、荷兰语、英语、希腊语、波兰语）的代码文件及其注释，旨在评估不同AI模型在代码注释生成任务上的表现。每个语言配置包含500个样本，主要字段包括文件ID、代码内容、仓库信息、文件路径、原始注释，以及多个AI模型（如Qwen/CodeQwen1.5-7B、bigcode/starcoder2-7b等）生成的掩码数据、预测结果和预测注释。此外，还包含专家准确率和错误代码等评估指标。数据集适用于代码生成模型评估、多语言代码注释研究等场景。

提供机构：

AISE research lab at TU Delft

创建时间：

2026-03-10

原始信息汇总

数据集概述

基本信息

数据集名称: multilingual-code-comments-fixed-4
托管地址: https://huggingface.co/datasets/AISE-TUDelft/multilingual-code-comments-fixed-4
配置数量: 5
总下载大小: 约 42.84 MB
总数据集大小: 约 110.20 MB

配置详情

数据集包含五个独立的配置，每个配置对应一种语言。

1. Chinese（中文）

示例数量: 500
数据集大小: 21,771,737 字节
下载大小: 8,989,129 字节
特征字段: 31个

2. Dutch（荷兰语）

示例数量: 500
数据集大小: 24,183,731 字节
下载大小: 9,208,871 字节
特征字段: 31个

3. English（英语）

示例数量: 500
数据集大小: 20,644,201 字节
下载大小: 8,167,733 字节
特征字段: 31个

4. Greek（希腊语）

示例数量: 500
数据集大小: 25,702,184 字节
下载大小: 9,192,346 字节
特征字段: 31个

5. Polish（波兰语）

示例数量: 500
数据集大小: 17,899,106 字节
下载大小: 7,282,496 字节
特征字段: 31个

数据结构

所有配置共享相同的核心特征结构，并包含针对多个大型语言模型（LLM）的预测和评估字段。

核心特征

file_id: 文件标识符
content: 内容
repo: 代码仓库
path: 文件路径
original_comment: 原始注释

模型相关特征（针对每个评估的LLM）

每个配置包含对以下五个大型语言模型的评估数据：

Qwen/CodeQwen1.5-7B
bigcode/starcoder2-7b
ibm-granite/granite-8b-code-base
meta-llama/CodeLlama-7b-hf
google/codegemma-7b

对于每个模型，包含以下字段：

masked_data_[模型名]: 掩码后数据
predict_[模型名]: 模型预测
predicted_comment_[模型名]: 预测的注释
expert_accuracy_[模型名]: 专家准确率
error_codes_[模型名]: 错误代码

数据划分

所有配置仅包含一个划分：

划分名称: train
划分类型: 训练集

搜集汇总

数据集介绍

构建方式

在软件工程领域，代码注释的生成与评估是提升代码可读性和维护性的关键环节。multilingual-code-comments-fixed-4数据集的构建采用了系统化的方法，从开源代码仓库中提取了包含中文、荷兰语、英语、希腊语和波兰语五种语言的代码片段及其原始注释。通过掩码处理技术，将注释部分从代码中移除，形成掩码数据，随后利用多个先进的大语言模型（如CodeQwen1.5-7B、StarCoder2-7b等）进行预测，生成对应的注释内容。这一过程不仅保留了代码的结构信息，还通过专家准确性评估和错误代码标注，确保了数据集的可靠性和多样性，为多语言代码注释研究提供了坚实的基础。

使用方法

在自然语言处理与代码智能交叉研究中，该数据集可作为基准工具用于多语言代码注释生成模型的训练与评估。使用者可以通过加载特定语言配置（如中文或英语）来访问对应的代码片段和注释数据，利用掩码数据作为输入，验证或微调自定义模型生成注释的能力。预测结果和专家准确性字段允许进行性能对比分析，识别模型在不同语言或代码上下文中的优势与局限。数据集的结构化设计也支持错误分析，帮助研究者深入理解注释生成中的常见问题，进而改进算法设计或数据预处理流程。

背景与挑战

背景概述

随着多语言代码生成与理解任务的兴起，代码注释的自动生成成为软件工程与自然语言处理交叉领域的关键研究方向。multilingual-code-comments-fixed-4数据集应运而生，旨在评估和提升大型语言模型在多种自然语言环境下生成代码注释的能力。该数据集由研究社区构建，覆盖中文、荷兰语、英语、希腊语和波兰语五种语言，每个语言配置包含500个样本，核心研究问题聚焦于跨语言代码注释生成的准确性与适应性。通过整合多个前沿代码生成模型（如CodeQwen1.5-7B、starcoder2-7b等）的预测结果与专家评估指标，该数据集为多语言代码智能提供了基准测试平台，推动了全球化软件开发中代码可读性与维护性的提升。

当前挑战

该数据集致力于解决多语言代码注释生成领域的双重挑战：在领域问题层面，模型需克服自然语言多样性带来的语义对齐困难，例如不同语言中专业术语的表达差异，以及代码上下文与注释之间的跨语言映射复杂性；在构建过程中，数据收集面临多语言代码资源分布不均的挑战，需确保各语言样本在代码类型和注释质量上的代表性。此外，注释生成评估依赖于专家准确性指标，但人工标注的一致性与可扩展性存在局限，同时模型预测结果的错误代码分析需处理多模型输出对比的标准化问题，以保障评估的客观性与可靠性。

常用场景

经典使用场景

在软件工程与自然语言处理交叉领域，代码注释生成是提升代码可读性与维护性的关键任务。multilingual-code-comments-fixed-4数据集通过提供多语言（如中文、英文、希腊语等）的源代码及其对应注释，成为训练和评估代码注释生成模型的经典资源。该数据集常用于构建端到端的神经网络模型，这些模型能够根据给定的代码片段自动生成语义准确、风格一致的注释，从而辅助开发者理解复杂逻辑或遗留代码。

解决学术问题

该数据集有效解决了代码注释生成研究中数据稀缺与语言多样性不足的学术难题。传统研究多集中于英语注释，而本数据集涵盖多种自然语言，为探索跨语言代码理解与生成提供了实证基础。其意义在于推动了多语言代码表示学习的发展，使模型能够适应全球化软件开发环境，同时通过提供专家准确性评估字段，为量化注释生成质量建立了可复现的基准，促进了该领域方法论的标准化。

实际应用

在实际软件开发流程中，该数据集支撑的注释生成技术可集成至集成开发环境（IDE）或代码审查工具中，实现自动化文档辅助。例如，在维护多语言代码库时，工具能实时为新增或修改的代码生成注释，降低团队沟通成本，尤其适用于跨国协作项目。此外，它还能用于代码教育平台，帮助学生通过生成的注释快速理解编程范例，提升学习效率。

数据集最近研究