ScholarBench

Name: ScholarBench
Creator: HNU, KAIST, UCSB, KISTI
Published: 2025-05-22 19:59:06
License: 暂无描述

arXiv2025-05-22 更新2025-05-28 收录

下载链接：

http://arxiv.org/abs/2505.16566v1

下载链接

链接失效反馈

官方服务：

资源简介：

ScholarBench是一个专注于深度专家知识和复杂学术问题解决的基准，旨在评估大型语言模型（LLMs）在学术推理能力。该数据集由来自不同学术领域的5,031个韩文示例和5,309个英文示例组成，涵盖了五个不同的问题类型。数据集通过一个三步过程构建，旨在确保高质量的评价数据。该基准旨在评估LLMs在抽象、理解和推理方面的能力，并涵盖了八个不同的研究领域。此外，该数据集是一个英语-韩语的双语数据集，方便同时评估LLMs在两种语言中的语言能力。

提供机构：

HNU, KAIST, UCSB, KISTI

创建时间：

2025-05-22

搜集汇总

数据集介绍

构建方式

ScholarBench数据集的构建采用了严谨的三步流程：首先基于8个学术类别和63个英语/65个韩语属性设计任务，并依据引用指数筛选学术文献；其次利用GPT-4o从文献段落生成五种题型（摘要、简答、多选、多选填空、判断题）；最后通过专家评审确保问题质量。数据集包含5,031个韩语和5,309个英语样本，所有问题均经过15名评审人员的三阶段验证，确保答案证据明确存在于原文段落中，且Kappa系数显示英韩语标注一致性分别达0.614和0.706。

特点

该数据集具有三大核心特征：领域多样性覆盖自然科学、应用科学等8个学科类别；多维评估体系通过抽象、推理、理解等能力维度全面测评大模型表现；独特的双语平行架构支持英韩语跨语言知识迁移分析。数据特点体现为问题类型的均衡分布（每类约1,000样本）、段落长度跨学科差异显著（商业研究类中位数最长），以及问题设计强调多跳推理（如要求模型结合经济困境与文化规范推导教育障碍成因）。

使用方法

使用ScholarBench时需区分闭卷与开卷两种设置：闭卷测试直接评估模型参数化知识，开卷测试则提供原文段落考察信息提取能力。评估指标针对不同任务定制，包括ROUGE（摘要）、BERTScore（简答）和准确率（选择题）。对于双语研究，可通过18.7%的平行数据比较模型跨语言表现。实验表明添加段落上下文能使o3-mini模型平均性能提升12%，而思维链提示可进一步提升推理类任务表现3-5个百分点。

背景与挑战

背景概述

ScholarBench是由HNU、KAIST、UCSB和KISTI等机构的研究团队于2025年推出的双语学术评估基准数据集，旨在解决现有基准在评估大型语言模型(LLMs)处理复杂学术任务时的局限性。该数据集聚焦于深度专业知识和复杂学术问题解决能力，涵盖自然科学、应用科学、社会科学和人文学科等八个研究领域，包含五种问题类型，通过三阶段构建流程确保数据质量。作为首个同时评估抽象、理解和推理能力的英韩双语学术基准，其构建方法为跨学科学术能力评估提供了系统化框架，对推动LLMs在学术研究和教育领域的应用具有重要意义。

当前挑战

领域问题挑战包括：1)现有基准难以评估LLMs在专业学术领域的深度推理能力；2)跨学科知识整合与复杂语境理解存在显著差距。构建过程挑战体现在：1)需平衡八大学科领域的问题分布与难度梯度；2)确保双语数据在学术术语和逻辑结构上的对等性；3)设计同时满足封闭式(参数知识)和开放式(上下文理解)评估需求的问题框架；4)处理学术文献中特有的多模态信息(如图表、算法)的文本化转换。当前最先进模型平均得分仅0.543，验证了该基准在评估高阶学术能力方面的严格性。

常用场景

经典使用场景

ScholarBench作为双语学术基准测试，其经典使用场景在于全面评估大型语言模型（LLMs）在跨学科学术任务中的抽象、推理与理解能力。该数据集通过设计五种问题类型（摘要、简答、多选、单选、判断题）和八个研究领域（如自然科学、社会科学等），系统检验模型对专业文献的深度解析能力。例如，在医学领域要求模型基于临床研究段落推断药物疗效，或在工程学中评估技术方案的逻辑严谨性，充分体现其多维度测评的学术价值。

衍生相关工作

该数据集衍生出两类经典研究方向：一是基于其多维度评估框架发展的领域适配方法，如Qwen-32b-reasoning模型通过针对性微调在复杂多选题表现突出；二是催生了跨语言学术能力分析体系，相关研究（如LG AI的Exaone系列）利用其非平行双语数据探究知识迁移机制。此外，数据集构建方法被ChemLLMBench等后续工作借鉴，形成“学术段落-问题生成-专家校验”的标准化流程。

数据集最近研究