multilingual-code-comments-fixed-2
收藏Hugging Face2026-01-29 更新2026-01-30 收录
下载链接:
https://huggingface.co/datasets/AISE-TUDelft/multilingual-code-comments-fixed-2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言(中文、荷兰语、英语、希腊语、波兰语)的代码注释数据。每个语言配置包含以下特征:文件ID、内容、代码仓库、路径、原始注释,以及来自不同模型(Qwen/CodeQwen1.5-7B、bigcode/starcoder2-7b、ibm-granite/granite-8b-code-base、meta-llama/CodeLlama-7b-hf、google/codegemma-7b)的掩码数据和预测结果。此外,还包含每个模型的专家准确率和错误代码。每个语言配置都有一个训练集分割,包含500个样本,数据大小从17.7MB到25.6MB不等。该数据集适用于代码生成、代码注释生成和模型性能评估等任务。
提供机构:
AISE research lab at TU Delft
创建时间:
2026-01-29
原始信息汇总
数据集概述
基本信息
- 数据集名称: multilingual-code-comments-fixed-2
- 托管地址: https://huggingface.co/datasets/AISE-TUDelft/multilingual-code-comments-fixed-2
- 配置数量: 5
- 总下载大小: 约 42.6 MB
- 总数据集大小: 约 109.7 MB
配置详情
数据集包含五个独立的配置,分别对应五种编程语言注释。
1. Chinese(中文)
- 样本数量: 500
- 数据集大小: 21,642,567 字节
- 下载大小: 8,934,584 字节
- 数据文件路径: Chinese/train-*
2. Dutch(荷兰语)
- 样本数量: 500
- 数据集大小: 24,071,239 字节
- 下载大小: 9,164,593 字节
- 数据文件路径: Dutch/train-*
3. English(英语)
- 样本数量: 500
- 数据集大小: 20,538,377 字节
- 下载大小: 8,127,065 字节
- 数据文件路径: English/train-*
4. Greek(希腊语)
- 样本数量: 500
- 数据集大小: 25,626,283 字节
- 下载大小: 9,147,688 字节
- 数据文件路径: Greek/train-*
5. Polish(波兰语)
- 样本数量: 500
- 数据集大小: 17,774,200 字节
- 下载大小: 7,229,968 字节
- 数据文件路径: Polish/train-*
数据特征
所有配置共享相似的特征结构,主要包含以下字段:
核心元数据
file_id: 文件标识符repo: 代码仓库信息path: 文件路径content: 代码内容original_comment: 原始注释
模型预测与评估数据
针对五个大型代码语言模型,数据集提供了以下三组对应字段:
- 掩码数据:
masked_data_<模型名> - 模型预测:
predict_<模型名> - 预测的注释:
predicted_comment_<模型名>
专家评估结果
针对每个模型,提供两组评估字段:
- 专家准确率:
expert_accuracy_<模型名> - 错误代码:
error_codes_<模型名>
涉及的模型
数据集评估了以下五个模型:
- Qwen/CodeQwen1.5-7B
- bigcode/starcoder2-7b
- ibm-granite/granite-8b-code-base
- meta-llama/CodeLlama-7b-hf
- google/codegemma-7b
数据划分
- 所有配置仅包含一个划分:train。
- 每个配置的train划分均包含500个样本。
搜集汇总
数据集介绍

构建方式
在代码智能研究领域,多语言代码注释的生成与评估是提升模型泛化能力的关键环节。该数据集通过系统化流程构建,首先从开源代码仓库中提取包含中文、荷兰语、英语、希腊语和波兰语注释的代码片段,形成原始语料。随后,对注释部分进行掩码处理,生成多个变体,并利用一系列先进的大语言模型,如CodeQwen1.5-7B、StarCoder2-7b等,对掩码后的代码进行预测以生成新的注释。最终,数据集整合了原始代码、掩码数据、模型预测结果及专家评估的准确性指标,构建了一个结构化的多语言代码注释评估基准。
使用方法
在代码生成与自然语言处理交叉研究中,该数据集主要服务于模型性能的评估与比较。研究人员可加载特定语言配置(如中文或英语),直接访问原始代码、模型预测注释及对应的专家评估指标。通过分析不同模型生成的`predicted_comment`字段与`original_comment`的差异,并结合`expert_accuracy`与`error_codes`字段,可以定量评估各模型在特定语言上的注释生成质量与错误模式。该数据集适用于基准测试、模型微调效果验证,以及探究多语言代码表示学习等任务。
背景与挑战
背景概述
在软件工程与自然语言处理交叉领域,代码注释生成任务旨在通过自动化技术为源代码片段生成高质量的自然语言描述,以提升代码的可读性与可维护性。multilingual-code-comments-fixed-2数据集由研究团队构建,专注于解决多语言代码注释生成的评估问题,其核心研究问题在于如何准确衡量不同大型语言模型在多种自然语言环境下生成代码注释的性能。该数据集通过集成中文、荷兰语、英语、希腊语和波兰语五种语言的代码样本,为跨语言代码理解模型提供了标准化测试基准,推动了代码智能与多语言处理技术的融合发展。
当前挑战
该数据集所针对的领域挑战在于多语言代码注释生成的准确性与一致性评估,模型需要同时理解代码语义与不同自然语言的语法和文化语境,以生成符合编程逻辑且语言自然的注释。在构建过程中,挑战主要体现在多语言代码样本的收集与对齐,需确保各语言数据在代码复杂度和注释质量上具有可比性;同时,数据标注与模型预测结果的集成涉及多个先进模型的输出,需处理不同模型生成结果的格式统一与错误代码的标准化记录,以保障评估的公平性与可重复性。
常用场景
经典使用场景
在代码智能与自然语言处理交叉领域,多语言代码注释生成任务正成为评估模型跨语言理解能力的关键场景。该数据集通过提供中文、荷兰语、英语、希腊语和波兰语五种语言的代码片段及其对应注释,为研究人员构建了一个标准化的多语言代码注释生成基准。其经典使用场景在于系统性地评估和比较不同大型代码生成模型,如CodeQwen、StarCoder2、Granite、CodeLlama和CodeGemma,在多种自然语言环境下生成准确、连贯代码注释的性能表现。
解决学术问题
该数据集有效解决了代码智能研究中多语言代码注释生成任务缺乏标准化评估基准的学术问题。通过整合五种语言的真实代码库数据,并引入专家准确率和错误代码分析指标,它为量化模型在跨语言代码语义理解与自然语言生成方面的能力提供了可靠依据。其意义在于推动了多语言代码表示学习、代码注释生成模型的公平比较,以及低资源语言代码智能应用等研究方向的发展,为构建更具包容性和实用性的代码智能系统奠定了数据基础。
实际应用
在实际软件开发与维护中,该数据集支撑的应用场景广泛涉及多语言代码文档自动化生成、跨语言代码库理解与迁移、以及智能编程助手工具的优化。例如,在全球化软件开发团队中,利用该数据集训练的模型能够自动为不同语言编写的代码生成高质量注释,显著提升代码可读性和维护效率。同时,它也为构建支持多语言查询的代码搜索引擎和智能代码补全工具提供了关键的训练与评估资源,助力提升开发者的跨语言协作体验。
数据集最近研究
最新研究方向
在代码智能与自然语言处理交叉领域,多语言代码注释生成正成为前沿热点。该数据集通过整合中文、荷兰语、英语、希腊语和波兰语等多种语言的代码注释,为跨语言代码理解与生成任务提供了宝贵资源。其最新研究方向聚焦于利用预训练大模型如CodeQwen、StarCoder2、CodeLlama等进行多语言代码注释的自动生成与评估,探索模型在非英语语境下的泛化能力与准确性。这一趋势呼应了全球化软件开发中多语言协作的需求,推动了代码智能工具在多样化语言环境中的实用化进程,对提升软件可维护性与开发效率具有深远意义。
以上内容由遇见数据集搜集并总结生成



