AISE-TUDelft/multilingual-code-comments

Name: AISE-TUDelft/multilingual-code-comments
Creator: AISE-TUDelft
Published: 2025-05-28 12:48:59
License: 暂无描述

Hugging Face2025-05-28 更新2025-07-05 收录

下载链接：

https://hf-mirror.com/datasets/AISE-TUDelft/multilingual-code-comments

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多语言代码注释的数据集，用于研究大型语言模型（LLM）如何生成代码注释，并评估这些注释在不同语言中的质量。数据集分为英语、中文、荷兰语、波兰语和希腊语五个子集，每个子集包含500条代码注释。数据集特征包括文件标识符、内容、存储库信息、文件路径、原始注释以及模型特定的数据，如掩码内容、预测和专家评估。README还介绍了如何加载数据集和一个用于评估生成注释的错误类型分类。

This dataset includes code comments in multiple languages to study how Large Language Models (LLMs) generate code comments and evaluate their quality across different languages. The dataset is split into subsets for English, Chinese, Dutch, Polish, and Greek, each containing 500 code comments. Dataset features include file identifiers, content, repository information, file paths, original comments, and model-specific data such as masked content, predictions, and expert evaluations.

提供机构：

AISE-TUDelft

5,000+

优质数据集

54 个

任务类型

进入经典数据集