StRuCom

Name: StRuCom
Creator: MTS AI, ITMO University, IITU University
Published: 2025-05-16 17:22:07
License: 暂无描述

arXiv2025-05-16 更新2025-05-20 收录

下载链接：

http://arxiv.org/abs/2505.11026v1

下载链接

链接失效反馈

官方服务：

资源简介：

StRuCom是一个专为俄语代码文档生成而设计的大规模数据集，包含从俄罗斯GitHub存储库中提取的150,000多个俄语代码注释对，以及通过自动化验证确保符合Python、Java、JavaScript、C#和Go标准的合成注释。该数据集旨在解决现有机器学习模型在俄语代码注释生成方面的不足，通过微调Qwen2.5-Coder模型，实现了生成质量的显著提升。

提供机构：

MTS AI, ITMO University, IITU University

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

在代码文档自动生成领域，俄语结构化注释的匮乏严重制约了俄语开发者的工作效率。为填补这一空白，StRuCom数据集通过系统化的构建流程，整合了来自GitHub俄语仓库的真实注释与AI生成的合成注释。研究团队首先开发了自动化工具对Python、Java、JavaScript、C#和Go五种语言的注释结构进行标准化验证，确保符合各语言的文档规范（如GoogleDoc、JSDoc等）。通过Lingua语言识别工具筛选俄语内容，并采用Qwen2.5-Coder-32B和Miqu-70B模型进行数据增强，最终形成包含15.3万条样本的高质量语料库。

特点

作为首个专注于俄语代码文档的大规模数据集，StRuCom的独特性体现在三个方面：语言专业性方面，严格采用俄语技术术语体系，避免机器翻译导致的术语失真；结构完整性方面，所有注释均通过自动化工具验证，确保包含参数说明、返回值描述等完整要素；多语言覆盖方面，同步支持五种主流编程语言的文档规范。相较于CodeSearchNet等英文数据集，其注释平均长度超出300%，且完整结构化注释占比达56.4%（Go语言），为模型训练提供了更丰富的语义信息。

使用方法

该数据集主要应用于俄语代码文档生成模型的训练与评估。使用时建议采用分层抽样策略，按7:3比例划分训练测试集，其中测试集应优先选用真实注释样本。对于模型微调，推荐采用LoRA适配器技术，设置学习率为1e-4，批量大小为1，配合余弦调度器进行5个epoch的训练。评估指标宜选用针对俄语优化的chrf++和基于E5-Mistral的BERTScore，重点关注参数说明的准确性和文档结构的合规性。为提升生成质量，可对输入代码进行预处理，确保函数长度在250-1000字符的优化区间内。

背景与挑战

背景概述

StRuCom数据集由Maria Dziuba和Valentin Malykh等研究人员于2025年提出，旨在解决俄语结构化代码注释生成领域的空白。该数据集由MTS AI、ITMO University和IITU University联合开发，包含15.3万条涵盖Python、Java、JavaScript、C#和Go五种编程语言的俄语代码-注释对。作为首个针对俄语代码文档的大规模专业数据集，StRuCom通过整合GitHub真实注释与LLM生成的合成数据，并采用自动化验证工具确保符合各语言文档标准，显著提升了Qwen2.5-Coder等模型在俄语文档生成任务中的chrf++和BERTScore指标。该数据集的建立弥补了现有英语中心化数据集（如CodeSearchNet）在俄语技术术语准确性和文档结构完整性方面的不足，为俄语开发者社区的代码可维护性研究提供了重要基础设施。

当前挑战

构建StRuCom数据集面临双重挑战：在领域问题层面，俄语技术术语存在外来词与直译词的混用现象（如'эндпоинт'与'конечная точка'），且多语言模型在俄语文档生成时存在结构缺失和语义偏差；在构建过程层面，需解决GitHub俄语仓库识别困难（缺乏API直接支持）、各语言文档标准差异（如Python的GoogleDoc需类型标注而GoDoc无格式要求）以及原始注释质量参差（94%的Python注释为非结构化）等问题。研究者通过开发基于docstring_parser的自动化验证工具，并采用Miqu-70B和Qwen2.5-Coder-32B模型进行数据增强，最终使结构化完整注释比例提升至56.4%（Go）至1.5%（Python）不等，反映出不同语言生态的文档规范成熟度差异。

常用场景

经典使用场景

在跨语言代码文档生成领域，StRuCom数据集为俄语结构化注释的自动生成提供了基准测试平台。该数据集通过整合GitHub真实俄语仓库的注释与LLM生成的合成数据，支持Python、Java等五种主流编程语言的文档风格验证，成为评估模型在非英语语境下代码理解能力的重要工具。其严格的格式过滤机制确保了注释包含参数、返回值等关键元素，为研究多语言代码语义解析提供了标准化实验环境。

衍生相关工作

基于StRuCom的衍生研究集中在跨语言代码智能方向。部分工作扩展了其注释验证工具至乌克兰语等斯拉夫语系，另一些研究则探索多语言联合训练策略，如将StRuCom与CodeSearchNet结合提升模型泛化能力。值得注意的是，该数据集启发了对编程语言文档风格差异的量化分析，例如发现Go的简易标准使其完整注释率达56.4%，而Python因类型标注复杂仅1.5%，这为文档规范设计提供了实证依据。

数据集最近研究