CRQBench

Name: CRQBench
Creator: 布林莫尔学院
Published: 2024-08-16 07:30:47
License: 暂无描述

arXiv2024-08-16 更新2024-08-20 收录

下载链接：

https://github.com/radareorg/radare2/pull/13555#discussion r270676564

下载链接

链接失效反馈

官方服务：

资源简介：

CRQBench是由布林莫尔学院和Google DeepMind合作创建的一个C++代码推理问题数据集，包含100个问题和答案，源自真实的代码审查评论。数据集通过结合大型语言模型（LLM）和人工检查进行筛选和重述，旨在减少人工努力并提高问题质量。该数据集主要用于评估和提升大型语言模型在代码推理方面的能力，特别是在软件工程任务中的应用。

CRQBench is a C++ code reasoning problem dataset co-created by Bryn Mawr College and Google DeepMind. It includes 100 question-answer pairs sourced from real code review comments. This dataset was filtered and rephrased by combining Large Language Models (LLMs) and manual reviews, aiming to reduce manual effort and improve the quality of the questions. It is primarily designed to evaluate and enhance the code reasoning capabilities of Large Language Models, especially for applications in software engineering tasks.

提供机构：

布林莫尔学院

创建时间：

2024-08-16

搜集汇总

数据集介绍

构建方式

CRQBench数据集的构建采用了大型语言模型(LLM)助手和人工检查相结合的方式。首先，通过LLM助手对代码审查评论进行分类，筛选出与代码推理相关的评论。接着，根据评论的类型，使用不同的LLM技术进行重写，以生成简洁、明确的代码推理问题。最后，通过人工检查确保重写的问题与原始评论的一致性。

使用方法

使用CRQBench数据集时，首先需要了解数据集中问题的类型和结构。接着，可以选择合适的方法对问题进行回答，例如使用大型语言模型或人工分析。最后，需要对回答的准确性和上下文相关性进行评估，以确保回答的有效性。

背景与挑战

背景概述

在大型语言模型（LLMs）在编码任务上的卓越表现背后，对其代码推理能力的精确评估却是一大挑战。现有的基准测试往往不真实，将语义推理能力与软件工程任务的表现混淆。CRQBench数据集的创建旨在解决这一问题，它由来自上下文代码审查评论的100个C++代码推理问题和答案组成。该数据集由Elizabeth Dinella、Satish Chandra和Petros Maniatis等人于2024年8月提出，旨在提供一个真实的、上下文相关的基准，用于评估LLMs在代码推理方面的语义推理能力。CRQBench不仅反映了现实世界的编程场景，而且通过结合LLM助手和人工检查，大大减少了手动工作，为代码推理问答领域提供了一个重要的评估工具。

当前挑战

尽管CRQBench数据集提供了对LLMs代码推理能力的有效评估，但其构建过程中仍面临一些挑战。首先，从代码审查评论中提取清晰的代码推理问题并非易事，因为大多数评论与代码推理无关，且往往不是以简洁、明确的问答形式出现。其次，答案的提取需要人工进行，这涉及到对代码上下文、代码更改和开发者文本回复的仔细推理。此外，为了获取100个代码推理问题，需要审查的评论数量远大于最终问题数量，这表明在分类器和验证器中存在一定比例的错误。最后，LLMs在处理需要更多上下文信息的问题时可能会出现性能下降，这表明模型在理解和处理复杂代码结构方面仍存在局限性。

常用场景

经典使用场景

在代码推理领域，CRQBench 数据集以其真实的代码上下文和语义推理问题的特性，成为了评估大型语言模型（LLM）代码推理能力的基准。该数据集从代码审查注释中提取了100个C++代码推理问题及其答案，旨在评估模型在没有软件工程任务干扰的情况下，对代码语义推理的理解能力。CRQBench 的经典使用场景包括对 LLM 进行代码推理能力的评估，以及用于训练和优化代码理解模型。

解决学术问题

CRQBench 数据集解决了现有代码推理评估基准的不足，这些基准往往是非现实和人工合成的，并且将语义推理能力与软件工程任务的性能混淆。通过从实际的代码审查注释中提取问题，CRQBench 能够提供一个更接近现实编程场景的评估环境。此外，CRQBench 还通过结合 LLM 辅助和人工检查，显著减少了数据集创建过程中的人工工作量，为未来的数据集构建提供了新的方法。CRQBench 的意义在于，它为代码推理能力的评估提供了一个更准确和有效的基准，对推动 LLM 在代码理解方面的研究具有重要意义。

实际应用

CRQBench 数据集的实际应用场景广泛，包括但不限于代码审查自动化工具的开发，以及代码理解和故障诊断系统的训练。通过使用 CRQBench 中的问题，开发者可以训练模型来理解代码中的语义细节，从而在代码审查过程中提供更准确的建议和反馈。此外，CRQBench 还可以用于训练模型来识别代码中的潜在错误和缺陷，从而提高代码质量。在实际应用中，CRQBench 有助于提高软件开发效率和代码可靠性。

数据集最近研究