cornstack_javascript_ru_en

Hugging Face2026-02-11 更新2026-02-12 收录

下载链接：

https://huggingface.co/datasets/fyaronskiy/cornstack_javascript_ru_en

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是CoRNStack数据集的一部分，已翻译成俄语，翻译使用了Qwen3模型。数据集包含满足双重一致性过滤条件的样本（即文档排名为0或1且文档分数大于0.7的样本）。数据集特征包括查询、俄语查询、文档、元数据（包含目标信息）、负样本、负样本分数、文档分数和文档排名。数据规模为训练集包含1,468,801个样本，总大小为90,709,605,241字节。数据集适用于句子相似性、文本检索等任务，支持俄语和英语，标签包括代码、代码检索、文本检索和代码生成。许可证为Apache-2.0。

创建时间：

2026-02-02

搜集汇总

数据集介绍

构建方式

在代码检索与跨语言信息对齐的研究背景下，cornstack_javascript_ru_en数据集源自CoRNStack JavaScript数据集的俄语翻译版本。其构建过程首先从原始数据集中筛选出满足双重一致性过滤条件的样本，即文档排名为0或1且文档得分高于0.7的高质量条目。随后，利用Qwen3-8B大规模语言模型对这些精选的英文查询与文档进行自动化俄语翻译，确保了语言转换的准确性与语义一致性。整个流程通过开源工具链实现，形成了包含原始查询、俄语翻译、文档及丰富元数据的结构化语料。

特点

该数据集的核心特点体现在其跨语言与多模态的代码检索架构上。它同时包含英语与俄语的双语查询对，以及对应的JavaScript代码文档，专为代码检索、文本相似度计算与代码生成任务设计。数据结构中集成了复杂的元信息，如目标类型、负样本列表及其评分、文档得分与排名，为训练与评估检索模型提供了细粒度的监督信号。其大规模训练分割包含近147万条样本，覆盖了丰富的代码语义场景，支持跨语言代码理解与生成的前沿研究。

使用方法

在跨语言代码检索与生成的应用场景中，该数据集可直接用于训练或评估双语检索模型、代码相似度模型及代码生成系统。研究人员可基于查询与文档对进行有监督的对比学习，利用负样本及评分信息优化检索排序。同时，俄语与英语查询的配对支持跨语言迁移学习研究，助力构建多语言代码助手。数据集以Apache 2.0协议开源，用户可通过HuggingFace数据集库加载，并依据元数据字段灵活过滤样本，以适配不同的实验设计与模型训练流程。

背景与挑战

背景概述

在跨语言代码检索与生成领域，数据资源的稀缺性长期制约着模型性能的提升。cornstack_javascript_ru_en数据集作为CoRNStack JavaScript数据集的一部分，由研究团队通过先进机器翻译技术转化而来，旨在构建俄语与英语之间的高质量代码-文本对齐语料。该数据集聚焦于解决多语言编程环境下的语义匹配难题，通过引入俄语查询及其对应英文代码文档，为跨语言代码搜索、代码生成等任务提供了关键数据支撑，推动了多语言代码智能应用的发展。

当前挑战

该数据集致力于应对跨语言代码检索中的核心挑战，即如何在语言差异显著的条件下实现代码与自然语言查询的精准语义对齐。构建过程中，研究团队面临双重困难：一是确保机器翻译生成的俄语查询在编程语境下保持术语准确性与逻辑一致性；二是需通过严格的筛选机制，如文档排名与分数阈值，从海量数据中提取高质量样本，以保障数据对的可靠性与实用性。这些挑战直接关系到模型在多语言场景下的泛化能力与性能上限。

常用场景

经典使用场景

在跨语言代码检索与生成领域，cornstack_javascript_ru_en数据集以其俄语与英语双语并行结构，为研究者提供了经典的跨语言代码语义对齐场景。该数据集常用于训练和评估多语言代码检索模型，通过查询与文档的匹配任务，探索不同语言环境下代码片段的语义相似性，尤其在JavaScript编程语言的上下文中，支持从自然语言查询到代码片段的精准映射，促进了跨语言代码理解能力的发展。

衍生相关工作

基于该数据集，衍生了一系列经典研究工作，主要集中在跨语言代码检索模型的优化与评估上。例如，利用其双语特性探索对比学习在代码语义对齐中的应用，或结合预训练语言模型开发多语言代码生成系统。这些工作不仅拓展了代码检索的边界，还为多语言编程支持系统的设计提供了实证基础，推动了相关领域的理论创新与技术实践。

数据集最近研究