code_search_net_ru_en

Hugging Face2025-11-24 更新2025-11-25 收录

下载链接：

https://huggingface.co/datasets/fyaronskiy/code_search_net_ru_en

下载链接

链接失效反馈

官方服务：

资源简介：

CodeSearchNet数据集的俄语翻译版本，包含了函数的名称、路径、完整代码字符串、代码标记、文档字符串等信息。数据集分为训练集、验证集和测试集，适用于句子相似度和文本检索任务。

创建时间：

2025-11-20

原始信息汇总

数据集概述

基本信息

数据集名称: code_search_net_ru_en
语言: 俄语(ru)、英语(en)
标签: 代码(code)、代码检索(code_retrieval)、文本检索(text_retrieval)
任务类别: 句子相似度(sentence-similarity)、文本检索(text-retrieval)

数据来源

基于CodeSearchNet数据集翻译而成，使用Qwen3-8B模型进行俄语翻译

数据集规模

总大小: 7,101,865,448字节
下载大小: 2,216,518,338字节
总样本数: 2,070,536

数据划分

划分	样本数	大小(字节)
train	1,880,853	6,457,176,369
validation	89,154	304,733,239
test	100,529	339,955,840

特征结构

repository_name: 字符串
func_path_in_repository: 字符串
func_name: 字符串
whole_func_string: 字符串
language: 字符串
func_code_string: 字符串
func_code_tokens: 字符串列表
func_documentation_string: 字符串
ru_func_documentation_string: 字符串
func_documentation_tokens: 字符串列表
split_name: 字符串
func_code_url: 字符串

文件配置

训练集: data/train-*
验证集: data/validataion-*
测试集: data/test-*

搜集汇总

数据集介绍

构建方式

在代码检索研究领域，code_search_net_ru_en数据集通过系统化方法构建而成。原始CodeSearchNet数据集经过精心筛选，涵盖多种编程语言的函数代码及其对应文档。本版本特别采用Qwen3-8B模型对英文文档进行专业翻译，生成高质量的俄语版本，形成跨语言代码检索对。数据集严格划分训练集、验证集和测试集，确保模型评估的可靠性，每个样本均包含完整的代码元数据和双语文档。

使用方法

研究人员可将该数据集应用于代码检索和语义相似度计算任务。使用时应根据split_name字段划分数据子集，训练集用于模型参数学习，验证集用于超参数调优，测试集用于最终性能评估。通过对比func_code_string与func_documentation_string的语义关联，可训练跨语言代码搜索模型。数据集的俄英双语特性使其特别适合开发支持多语言的代码智能助手，提升非英语用户的编程体验。

背景与挑战

背景概述

随着全球软件开发的蓬勃发展，跨语言代码检索逐渐成为提升多语言协作效率的关键技术。code_search_net_ru_en数据集基于原始CodeSearchNet构建，由研究机构通过先进神经网络模型进行俄语翻译扩展而成，其核心目标在于解决俄语与英语双语环境下的代码语义匹配问题。该数据集通过融合多语言文档与对应代码片段，为构建跨语言代码智能检索系统提供了重要基础，显著推动了全球化软件开发中知识共享与技术传播的进程。

当前挑战

跨语言代码检索面临的核心挑战在于克服编程语言与自然语言之间的语义鸿沟，特别是俄语与英语在语法结构和术语体系上的显著差异。数据集构建过程中需应对大规模代码注释的精准翻译难题，包括技术术语的语境适配与代码结构一致性的维护。同时，确保翻译后文档与原始代码功能的语义对齐，以及处理不同编程范式带来的逻辑表达多样性，均是实现高质量跨语言检索必须突破的技术瓶颈。

常用场景

经典使用场景

在跨语言代码检索研究领域，该数据集通过提供俄语与英语双语对照的代码文档，为开发多语言代码搜索系统奠定了重要基础。研究者可利用其包含的函数代码与对应文档的平行语料，训练能够理解不同语言查询意图的神经网络模型，有效解决了传统代码搜索系统受限于单一语言的瓶颈问题。

解决学术问题

该数据集主要解决了跨语言代码语义匹配的学术挑战，通过构建大规模俄英双语代码文档对，为研究代码与自然语言之间的语义关联提供了实验平台。其重要意义在于突破了语言壁垒对代码复用和知识共享的限制，推动了多语言编程环境下智能开发工具的发展，对促进全球软件开发协作具有深远影响。

实际应用

在实际开发场景中，该数据集支撑的跨语言代码检索技术可广泛应用于国际化软件开发团队。俄罗斯开发者能够使用母语查询英语代码库中的相关函数，显著提升代码复用效率；同时为多语言集成开发环境提供核心技术支持，使得不同语言背景的程序员能够更高效地协作开发。

数据集最近研究