ScholarBench

Name: ScholarBench
Creator: HNU, KAIST, UCSB, KISTI
Published: 2025-05-22 19:59:06
License: 暂无描述

arXiv2025-05-22 更新2025-05-28 收录

下载链接：

http://arxiv.org/abs/2505.16566v1

下载链接

链接失效反馈

官方服务：

资源简介：

ScholarBench是一个专注于深度专家知识和复杂学术问题解决的基准，旨在评估大型语言模型（LLMs）在学术推理能力。该数据集由来自不同学术领域的5,031个韩文示例和5,309个英文示例组成，涵盖了五个不同的问题类型。数据集通过一个三步过程构建，旨在确保高质量的评价数据。该基准旨在评估LLMs在抽象、理解和推理方面的能力，并涵盖了八个不同的研究领域。此外，该数据集是一个英语-韩语的双语数据集，方便同时评估LLMs在两种语言中的语言能力。

ScholarBench is a benchmark focusing on deep expert knowledge and complex academic problem-solving, aiming to evaluate the academic reasoning capabilities of large language models (LLMs). This dataset comprises 5,031 Korean examples and 5,309 English examples from various academic disciplines, covering five distinct question types. The dataset is constructed via a three-step process to ensure high-quality evaluation data. This benchmark is designed to assess LLMs' abilities in abstraction, comprehension and reasoning, spanning eight different research fields. Additionally, this is an English-Korean bilingual dataset, facilitating simultaneous evaluation of LLMs' language proficiency in both languages.

提供机构：

HNU, KAIST, UCSB, KISTI

创建时间：

2025-05-22

搜集汇总

数据集介绍

构建方式

ScholarBench数据集的构建采用了严谨的三步流程：首先基于8个学术类别和63个英语/65个韩语属性设计任务，并依据引用指数筛选学术文献；其次利用GPT-4o从文献段落生成五种题型（摘要、简答、多选、多选填空、判断题）；最后通过专家评审确保问题质量。数据集包含5,031个韩语和5,309个英语样本，所有问题均经过15名评审人员的三阶段验证，确保答案证据明确存在于原文段落中，且Kappa系数显示英韩语标注一致性分别达0.614和0.706。

特点

该数据集具有三大核心特征：领域多样性覆盖自然科学、应用科学等8个学科类别；多维评估体系通过抽象、推理、理解等能力维度全面测评大模型表现；独特的双语平行架构支持英韩语跨语言知识迁移分析。数据特点体现为问题类型的均衡分布（每类约1,000样本）、段落长度跨学科差异显著（商业研究类中位数最长），以及问题设计强调多跳推理（如要求模型结合经济困境与文化规范推导教育障碍成因）。

使用方法

使用ScholarBench时需区分闭卷与开卷两种设置：闭卷测试直接评估模型参数化知识，开卷测试则提供原文段落考察信息提取能力。评估指标针对不同任务定制，包括ROUGE（摘要）、BERTScore（简答）和准确率（选择题）。对于双语研究，可通过18.7%的平行数据比较模型跨语言表现。实验表明添加段落上下文能使o3-mini模型平均性能提升12%，而思维链提示可进一步提升推理类任务表现3-5个百分点。

背景与挑战

背景概述

ScholarBench是由HNU、KAIST、UCSB和KISTI等机构的研究团队于2025年推出的双语学术评估基准数据集，旨在解决现有基准在评估大型语言模型(LLMs)处理复杂学术任务时的局限性。该数据集聚焦于深度专业知识和复杂学术问题解决能力，涵盖自然科学、应用科学、社会科学和人文学科等八个研究领域，包含五种问题类型，通过三阶段构建流程确保数据质量。作为首个同时评估抽象、理解和推理能力的英韩双语学术基准，其构建方法为跨学科学术能力评估提供了系统化框架，对推动LLMs在学术研究和教育领域的应用具有重要意义。

当前挑战

领域问题挑战包括：1)现有基准难以评估LLMs在专业学术领域的深度推理能力；2)跨学科知识整合与复杂语境理解存在显著差距。构建过程挑战体现在：1)需平衡八大学科领域的问题分布与难度梯度；2)确保双语数据在学术术语和逻辑结构上的对等性；3)设计同时满足封闭式(参数知识)和开放式(上下文理解)评估需求的问题框架；4)处理学术文献中特有的多模态信息(如图表、算法)的文本化转换。当前最先进模型平均得分仅0.543，验证了该基准在评估高阶学术能力方面的严格性。

常用场景

经典使用场景

ScholarBench作为双语学术基准测试，其经典使用场景在于全面评估大型语言模型（LLMs）在跨学科学术任务中的抽象、推理与理解能力。该数据集通过设计五种问题类型（摘要、简答、多选、单选、判断题）和八个研究领域（如自然科学、社会科学等），系统检验模型对专业文献的深度解析能力。例如，在医学领域要求模型基于临床研究段落推断药物疗效，或在工程学中评估技术方案的逻辑严谨性，充分体现其多维度测评的学术价值。

衍生相关工作

该数据集衍生出两类经典研究方向：一是基于其多维度评估框架发展的领域适配方法，如Qwen-32b-reasoning模型通过针对性微调在复杂多选题表现突出；二是催生了跨语言学术能力分析体系，相关研究（如LG AI的Exaone系列）利用其非平行双语数据探究知识迁移机制。此外，数据集构建方法被ChemLLMBench等后续工作借鉴，形成“学术段落-问题生成-专家校验”的标准化流程。

数据集最近研究