CoSQA+

Name: CoSQA+
Creator: 中山大学
Published: 2024-06-17 22:34:14
License: 暂无描述

arXiv2024-06-17 更新2024-06-19 收录

下载链接：

https://github.com/DeepSoftwareAnalytics/CoSQA_Plus

下载链接

链接失效反馈

官方服务：

资源简介：

CoSQA+是由中山大学开发的一个高质量代码搜索数据集，旨在解决现有代码搜索数据集中存在的问题，如不切实际的查询、代码不匹配和单一代码对。该数据集包含103,000条高质量查询与多个匹配代码的配对，数据来源于CoSQA、StaQC和CodeSearchNet。创建过程中，利用了多种模型进行自动标注和代码生成，确保了数据集的高质量和多样性。CoSQA+特别适用于评估和提升多选择代码搜索的性能，通过引入新的评估指标MMRR，有效解决了传统评估方法的局限性。

CoSQA+ is a high-quality code search dataset developed by Sun Yat-sen University, which aims to address the prevalent issues in existing code search datasets, including unrealistic natural language queries, mismatched code snippets, and one-to-one single-code-per-query pairing limitations. This dataset includes 103,000 high-quality queries paired with multiple matching code snippets, and its source materials are drawn from CoSQA, StaQC, and CodeSearchNet. During the construction process, multiple models were utilized for automatic annotation and code generation to guarantee the high quality and diversity of the dataset. CoSQA+ is specifically designed for evaluating and improving the performance of multi-choice code search, and it effectively resolves the limitations of traditional evaluation methods by introducing the novel evaluation metric MMRR.

提供机构：

中山大学

创建时间：

2024-06-17

搜集汇总

数据集介绍

构建方式

CoSQA+数据集的构建过程始于高质量查询和多源代码片段的收集。查询来源于CoSQA数据集，而代码片段则从StaQC和CodeSearchNet中筛选。通过多模型嵌入计算查询与代码的相似度，筛选出前五个最相似的候选对。随后，利用Claude 3 Sonnet模型自动标注这些候选对，判断其是否精确匹配。对于无法匹配的查询，使用GPT-4生成精确匹配的代码，并经过人工验证。最终，数据集包含108,896个标注的查询-代码对，确保了数据的高质量和多样性。

特点

CoSQA+数据集的主要特点在于其高质量的多对多查询-代码匹配结构。与现有数据集不同，CoSQA+允许一个查询对应多个有效代码片段，更贴近实际开发场景。数据集中的代码片段涵盖了多种格式，包括代码块、函数和片段，增强了模型的泛化能力。此外，通过引入新的评估指标MMRR（Mean Multichoice Reciprocal Rank），能够更准确地评估模型在多代码选择任务中的表现。实验表明，CoSQA+在代码质量和匹配度上优于CoSQA，显著提升了模型的训练效果。

使用方法

CoSQA+数据集主要用于语义代码搜索任务，旨在通过自然语言查询检索相关代码片段。研究人员可以使用该数据集训练和评估深度学习模型，如CodeBERT、UniXcoder和CodeT5+等。数据集提供了训练、验证和测试集的划分，便于模型在不同阶段的表现评估。通过MMRR指标，用户可以量化模型在多代码选择任务中的表现。此外，数据集还支持自动标注和代码生成任务，为研究自然语言与代码之间的跨模态对齐提供了丰富的实验数据。

背景与挑战

背景概述

CoSQA+是由中山大学的研究团队于2024年提出的一个语义代码搜索数据集，旨在解决现有代码搜索数据集中存在的查询不真实、代码不匹配以及单一代码配对等问题。该数据集基于CoSQA的高质量查询，结合了来自StaQC和CodeSearchNet的多样化代码片段，并通过大语言模型（如Claude 3 Sonnet和GPT-4）进行自动化标注和代码生成。CoSQA+的独特之处在于其支持一对多的代码匹配，更贴近实际开发场景。该数据集的推出为语义代码搜索领域提供了更高质量的基准，推动了代码搜索模型的性能提升。

当前挑战

CoSQA+在构建过程中面临的主要挑战包括：1) 如何确保查询与代码的精确匹配，避免现有数据集中常见的代码不匹配问题；2) 如何通过自动化工具（如大语言模型）高效标注大规模查询-代码对，同时保证标注的准确性与一致性；3) 如何扩展数据集的多样性，使其能够覆盖更多的编程语言和代码格式，以应对实际开发中的复杂需求。此外，CoSQA+还引入了新的评估指标MMRR（Mean Multichoice Reciprocal Rank），以更准确地衡量模型在多代码选择任务中的表现，这也是一个重要的研究挑战。

常用场景

经典使用场景

CoSQA+数据集在语义代码搜索领域具有广泛的应用，特别是在自然语言查询与代码片段匹配的场景中。该数据集通过将高质量的查询与多个合适的代码片段配对，解决了传统代码搜索数据集中存在的查询不现实、代码不匹配以及单一配对的问题。经典的使用场景包括在软件开发过程中，程序员通过自然语言描述需求，系统能够从代码库中检索出多个相关的代码片段，从而提高开发效率。

衍生相关工作

CoSQA+数据集的发布推动了语义代码搜索领域的多项经典工作。基于该数据集，研究人员开发了多种先进的代码搜索模型，如CodeBERT、UniXcoder和CodeT5+等。这些模型通过在大规模代码和自然语言数据上进行预训练，显著提升了代码搜索的准确性和效率。此外，CoSQA+还促进了多代码选择评估指标MMRR的广泛应用，使得研究人员能够更全面地评估模型的性能。未来，随着更多基于CoSQA+的研究工作的开展，语义代码搜索领域将迎来更多的创新和突破。

数据集最近研究