CS-Bench
收藏arXiv2024-06-13 更新2024-06-21 收录
下载链接:
https://github.com/csbench/csbench
下载链接
链接失效反馈官方服务:
资源简介:
CS-Bench是首个专注于评估大型语言模型在计算机科学领域表现的双语(中英文)基准。该数据集包含约5000个精心筛选的测试样本,覆盖计算机科学的26个子领域,涉及多种任务形式和知识与推理的划分。CS-Bench不仅评估模型对计算机科学知识的掌握,还评估其应用这些知识进行推理的能力。此外,支持中英文双语评估,使得能够跨语言环境评价模型的性能。该数据集旨在解决当前大型语言模型在计算机科学领域评估不足的问题,推动模型在教育、工业和科学等领域的应用。
CS-Bench is the first bilingual (Chinese and English) benchmark specifically focused on evaluating the performance of large language models (LLMs) in the field of computer science. This dataset contains approximately 5,000 carefully curated test samples, covering 26 subfields of computer science, and involves a variety of task formats as well as the division of evaluation into knowledge mastery and reasoning ability. CS-Bench not only evaluates a model’s mastery of computer science knowledge, but also its ability to apply such knowledge for reasoning. Additionally, it supports bilingual evaluation in both Chinese and English, enabling cross-lingual assessment of model performance. This dataset aims to address the current insufficient evaluation of large language models in the computer science domain, and promote the application of these models in fields such as education, industry, and scientific research.
提供机构:
北京邮电大学
创建时间:
2024-06-13
搜集汇总
数据集介绍

构建方式
CS-Bench数据集的构建旨在全面评估大型语言模型(LLMs)在计算机科学领域的知识掌握和推理能力。该数据集涵盖了计算机科学的四个关键领域:数据结构与算法、计算机组织、计算机网络和操作系统,并细分为26个子领域。数据集的构建过程包括从公开渠道收集计算机科学相关的问题,以及通过手动提取和改编博客文章获得的知识型问题。为了确保样本的多样性和高质量,数据集还包含了授权的教学材料和考试试卷。数据经过五名计算机科学专业的团队成员进行解析、标注和翻译,最终形成了包含4838个样本的双语数据集,其中包含多种任务格式,如选择题、判断题、填空题和开放式问题,以及知识型和推理型问题。
特点
CS-Bench数据集的特点在于其全面性、多样性和双语评估。它不仅覆盖了计算机科学的核心领域,还包含了不同任务格式和知识推理层次的问题。数据集的双语支持使其能够评估LLMs在不同语言环境下的表现。此外,CS-Bench的高质量样本和精心设计的评估方法使其成为一个公平且有效的基准,可以揭示LLMs在不同计算机科学领域的优势和不足。
使用方法
使用CS-Bench数据集时,首先需要根据任务类型设计相应的提问模板,并设置好评估协议。对于理解型任务(如选择题和判断题),可以通过正则表达式匹配LLMs的预测并与标准答案进行比较来计算准确率。对于生成型任务(如填空题和开放式问题),则可以使用GPT-4根据CS-Bench中的标准答案对LLMs的预测进行评分。在评估过程中,可以根据需要调整模型的规模,并通过拟合函数预测更大规模模型的表现。此外,还可以通过分析错误类型来指导LLMs在计算机科学领域的性能提升。
背景与挑战
背景概述
计算机科学(CS)作为人类智能的见证,深刻地推动了人工智能和现代社会的发展。然而,当前的大型语言模型(LLMs)社区过于关注分析特定基础技能(例如数学和代码生成)的基准测试,而忽略了计算机科学领域的全面评估。为了弥补这一差距,我们引入了CS-Bench,这是第一个致力于评估LLMs在计算机科学中性能的双语(中英)基准。CS-Bench由大约5K个精心策划的测试样本组成,涵盖了计算机科学的4个关键领域的26个子领域,包括各种任务形式和知识推理的划分。利用CS-Bench,我们对超过30个主流LLMs进行了全面评估,揭示了CS性能与模型规模之间的关系。我们还定量分析了现有LLMs失败的原因,并强调了改进方向,包括知识补充和CS特定的推理。进一步的跨能力实验表明,LLMs在计算机科学方面的能力与其在数学和编码方面的能力之间存在高度相关性。此外,专注于数学和编码的专家LLMs在几个CS子领域也表现出强大的性能。展望未来,我们设想CS-Bench将成为LLMs在CS领域应用的基础,并为评估LLMs的多样化推理能力开辟新的途径。
当前挑战
CS-Bench面临的挑战包括:1) 所解决的领域问题的挑战,即如何使LLMs有效地利用计算机科学知识并更有效地为人类服务;2) 构建过程中所遇到的挑战,例如如何设计具有高覆盖率和多样性的评估内容,以及如何有效地评估LLMs的推理能力。
常用场景
经典使用场景
CS-Bench数据集被广泛应用于大型语言模型(LLMs)在计算机科学领域的性能评估。该数据集包含了约5,000个精心挑选的测试样本,涵盖了计算机科学的四个关键领域(数据结构算法、计算机组成、计算机网络和操作系统)的26个子领域。通过多种任务形式(包括选择题、判断题、填空题和开放式问题),CS-Bench能够全面评估LLMs在计算机科学领域的知识和推理能力。
实际应用
CS-Bench数据集的实际应用场景包括但不限于代码审查、错误检测和算法优化等。通过使用CS-Bench评估LLMs在计算机科学领域的性能,可以有效地提高相关专业人士的工作效率,使他们能够更快速、更准确地完成与计算机相关的任务。此外,CS-Bench还可以作为教学工具,帮助学生更好地理解和掌握计算机科学知识。
衍生相关工作
CS-Bench数据集的提出和评估结果为LLMs在计算机科学领域的进一步研究和应用提供了重要的指导。通过对CS-Bench的深入研究,研究者们可以更好地理解LLMs在计算机科学领域的优势和不足,并针对性地进行改进。此外,CS-Bench还启示了LLMs在跨能力评估和综合分析方面的潜力,为LLMs在各个领域的应用开辟了新的途径。
以上内容由遇见数据集搜集并总结生成



