CSR-Bench

Name: CSR-Bench
Creator: 加州大学洛杉矶分校, 亚马逊网络服务
Published: 2025-02-10 10:46:29
License: 暂无描述

arXiv2025-02-10 更新2025-02-26 收录

下载链接：

http://arxiv.org/abs/2502.06111v1

下载链接

链接失效反馈

官方服务：

资源简介：

CSR-Bench是一个针对计算机科学研究项目的代码仓库部署任务的评估基准。该数据集由来自GitHub的100个高质量代码仓库组成，这些仓库经过精心挑选，涵盖了自然语言处理、计算机视觉、大型语言模型、机器学习等多个领域。数据集中的README文件和目录结构为评估大型语言模型在代码部署任务中的性能提供了关键信息。CSR-Bench旨在评估LLM在理解指令手册、生成可执行命令以及解决部署过程中的错误等方面的能力。

提供机构：

加州大学洛杉矶分校, 亚马逊网络服务

创建时间：

2025-02-10

搜集汇总

数据集介绍

构建方式

CSR-Bench 数据集的构建过程涉及从多个计算机科学相关的顶级会议上收集了100个高质量的代码仓库。这些仓库涵盖了自然语言处理、计算机视觉、大型语言模型、机器学习和跨学科主题。选择标准包括主题多样性和自足性，以确保 CSR-Bench 能够对代码部署任务的各个方面进行综合评估，包括指令生成、命令执行和工具辅助下的自我改进。数据集的构建过程中，每个仓库的 README 文件和其他内容（如源代码、bash 脚本、目录结构等）被用作 LLM 生成可执行 bash 命令的信息来源。

特点

CSR-Bench 数据集的特点在于其涵盖了计算机科学研究的多样性，并且包含了详细的文档和结构，以便于 LLM 生成可执行的 bash 命令。数据集的 README 文件长度适中，大多数 LLM 可以完整地处理整个 README 文件。此外，数据集还包含了丰富的 issue 数据库，这对于 LLM 在部署过程中遇到错误时查找解决方案非常有帮助。CSR-Bench 的一个显著特点是它引入了 CSR-Agents 框架，该框架利用多个 LLM 代理进行协作，每个代理都具有不同的专业能力，包括指令理解、命令执行、错误日志分析和搜索工具的错误修正。

使用方法

CSR-Bench 数据集的使用方法包括使用 LLM 代理来生成可执行的 bash 命令，并在标准化的 Docker 环境中执行这些命令。如果命令执行失败，系统会记录日志，并使用 LLM 代理进行错误分析，然后根据分析结果生成新的命令进行尝试。如果内部解决方案不足以解决问题，系统会从 issue 数据库或互联网上检索更多信息。CSR-Agents 框架通过迭代试验和错误修正的过程来提高代码部署的成功率。每个 LLM 代理在部署过程中扮演不同的角色，如命令起草者、脚本执行器、日志分析器、问题检索器和网络搜索器，它们协同工作以确保代码部署的自动化和高效性。

背景与挑战

背景概述

随着计算机科学研究的日益复杂化，对于代码仓库的部署工具的需求日益增长。大型语言模型（LLMs），如Anthropic Claude和Meta Llama，在计算机科学研究的各个领域取得了显著进展，包括软件工程任务的自动化。为了评估LLMs在处理研究项目中的复杂代码开发任务，特别是针对NLP/CV/AI/ML/DM主题，研究人员引入了CSR-Bench，这是一个针对计算机科学研究项目的基准。该基准从准确性、效率和部署脚本质量等多个方面评估LLMs，旨在探索其在自主进行计算机科学研究方面的潜力。研究人员还引入了一个新颖的框架，即CSR-Agents，该框架利用多个LLM代理来自动化GitHub代码仓库的部署。具体来说，通过检查markdown文件中的指令和解释仓库结构，模型生成并迭代改进bash命令，以设置实验环境并将代码部署到研究任务中。CSR-Bench的初步结果表明，LLM代理可以显著提高仓库部署的工作流程，从而提高开发人员的生产力并改进开发工作流程的管理。

当前挑战

CSR-Bench面临的挑战主要包括：1)LLMs在处理复杂的代码开发任务时的准确性、效率和部署脚本质量；2)在构建过程中，LLMs需要理解指令手册和复杂的项目结构，生成可执行的部署命令，并在部署过程中解决错误；3)目前，LLMs在处理复杂的任务，如训练和推理方面，仍然面临挑战，成功率较低。为了实现完全自动和可靠的部署过程，LLMs需要进一步提高其推理能力，尤其是在实验环境设置、数据/模型准备、纠正bash命令、搜索解决方案等方面。

常用场景

经典使用场景

CSR-Bench数据集主要用于评估大型语言模型（LLM）在处理计算机科学研究项目中复杂代码开发任务的能力。该数据集选取了来自GitHub的100个高质量的计算机科学研究代码库，涵盖了自然语言处理、计算机视觉、大型语言模型、机器学习和跨学科主题。CSR-Bench通过评估LLM在代码部署任务中的准确性、效率和部署脚本质量，旨在探索LLM在自主进行计算机科学研究方面的潜力。

实际应用

CSR-Bench数据集的实际应用场景包括但不限于：1）自动设置实验环境；2）自动准备必要的数据和模型文件；3）自动进行模型训练；4）自动演示推理；5）自动评估性能。这些应用场景可以极大地提高计算机科学研究项目的效率和自动化程度，从而加速科学研究的进程。

衍生相关工作

CSR-Bench数据集衍生了CSR-Agents框架，该框架利用多个LLM代理的协同工作，实现了代码库部署的自动化。CSR-Agents框架包括五个代理：命令起草者、脚本执行者、日志分析器、问题检索器和网络搜索器。这些代理通过迭代试错的过程，不断地生成、执行和优化部署脚本，从而实现代码库的自动化部署。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集