CSR-Bench

Name: CSR-Bench
Creator: 加州大学洛杉矶分校, 亚马逊网络服务
Published: 2025-02-12 04:25:11
License: 暂无描述

arXiv2025-02-12 更新2025-02-26 收录

下载链接：

http://arxiv.org/abs/2502.06111v2

下载链接

链接失效反馈

官方服务：

资源简介：

CSR-Bench是一个计算机科学研

CSR-Bench is a computer science research

提供机构：

加州大学洛杉矶分校, 亚马逊网络服务

创建时间：

2025-02-10

搜集汇总

数据集介绍

构建方式

CSR-Bench数据集的构建旨在评估大型语言模型（LLMs）在计算机科学研究项目代码库部署任务中的有效性。该数据集从GitHub上收集了超过1500个与计算机科学研究相关的顶级星级代码库，并通过GitHub标签进行筛选，以确保涵盖主题的多样性和自含性。最终，从这些代码库中精选出100个高质量的代码库，用于构建CSR-Bench数据集。数据集的构建过程中，研究人员对README文件和目录结构进行了详细的分析，以确保LLMs可以从中获取足够的信息来生成可执行的bash命令，完成代码库的部署任务。

使用方法

使用CSR-Bench数据集的方法主要包括以下步骤：首先，将数据集中的README文件和目录结构作为主要信息源，输入到LLM中，以生成可执行的bash命令。然后，在标准化的Docker环境中执行这些命令，并收集bash日志，包括标准输出和错误信息。如果执行失败，则将日志发送给Log Analyzer智能体进行分析，并根据分析结果生成新的bash命令进行重试。如果Log Analyzer无法解决问题，则通过Issue Retriever智能体从代码库的issue数据库中检索相关信息，或通过Web Searcher智能体从互联网上搜索解决方案。最后，通过比较不同LLM在各个阶段的成功率，评估其代码库部署的能力。

背景与挑战

背景概述

随着计算机科学研究项目的日益复杂化，部署代码仓库的需求也日益增长。大型语言模型（LLMs）在计算机科学研究领域，包括自然语言处理（NLP）、计算机视觉（CV）、人工智能（AI）、机器学习（ML）和数据分析（DM）等方面取得了显著进展，特别是在自动化各种软件工程任务方面。为了评估LLMs在处理复杂代码开发任务方面的有效性，特别是对于NLP/CV/AI/ML/DM主题，研究人员引入了CSR-Bench，这是一个针对计算机科学研究项目的基准。该基准从准确性、效率和部署脚本质量等方面评估LLMs，旨在探索它们在自主进行计算机科学研究方面的潜力。此外，研究人员还引入了一个名为CSR-Agents的新型框架，该框架利用多个LLM代理来自动化GitHub代码仓库的部署。通过检查markdown文件中的指令并解释仓库结构，模型生成并迭代改进bash命令，以设置实验环境并将代码部署到研究任务中。CSR-Bench的初步结果表明，LLM代理可以显著提高仓库部署的工作流程，从而提高开发人员的生产力并改善开发工作流程的管理。

当前挑战

CSR-Bench数据集面临的挑战包括：1) LLM代理在理解指令手册和复杂项目结构、生成可执行的代码部署命令以及解决部署过程中的错误方面的能力。2) 构建过程中遇到的挑战，例如在LLM代理的迭代改进过程中，如何有效地利用提供工具进行错误纠正和解决方案搜索。此外，尽管LLM代理在自动化仓库部署方面取得了进展，但在处理复杂任务（如训练和推理）方面仍然面临挑战，成功率相对较低。因此，为了实现自主和可靠的部署过程，需要进一步的改进和优化。

常用场景

经典使用场景

CSR-Bench 数据集主要用于评估大型语言模型（LLM）在处理复杂代码开发任务方面的有效性，特别是在自然语言处理（NLP）、计算机视觉（CV）、人工智能（AI）、机器学习（ML）和数据挖掘（DM）等领域的研究项目中。该数据集提供了一个全面的评估，包括准确性、效率以及部署脚本的品质，旨在探索 LLM 在自主进行计算机科学研究方面的潜力。

解决学术问题

CSR-Bench 数据集解决了在计算机科学研究中，随着代码库的快速增长，手动设置代码库的过程既繁琐又耗时的问题。通过引入 LLM 代理自动化部署代码库，CSR-Bench 可以显著提高开发人员的工作效率，并改善开发流程的管理。此外，CSR-Bench 还为评估 LLM 代理在代码库部署任务中的能力提供了一个参考标准，有助于推动相关领域的研究进展。

实际应用

CSR-Bench 数据集的实际应用场景主要集中在计算机科学研究中，特别是对于需要快速部署代码库以验证研究结果的场景。通过使用 CSR-Bench，研究人员可以评估不同 LLM 代理在代码库部署任务中的性能，并选择最适合他们需求的代理。此外，CSR-Bench 还可以用于开发新的 LLM 代理，以提高代码库部署的自动化程度和效率。

数据集最近研究