EXPERTLONGBENCH

Name: EXPERTLONGBENCH
Creator: 密歇根大学计算机科学与工程学院, 密歇根大学法学院, 密歇根大学信息学院, 密歇根大学材料科学与工程学院, 卡内基梅隆大学化学系, 密歇根大学生物医学工程系
Published: 2025-06-02 09:39:02
License: 暂无描述

arXiv2025-06-02 更新2025-06-06 收录

下载链接：

https://huggingface.co/spaces/launch/ExpertLongBench

下载链接

链接失效反馈

官方服务：

资源简介：

EXPERTLONGBENCH是一个包含11个任务的专家级基准数据集，这些任务来自9个领域，反映了现实世界中的专家工作流程和应用。该数据集要求模型生成超过5000个token的长期输出，并严格遵守特定领域的需求。每个任务都包含一个评分标准，由领域专家设计或验证，以指定任务要求并指导输出评估。此外，该研究提出了CLEAR评估框架，支持对长格式模型输出的准确评估。EXPERTLONGBENCH共包含11个大型语言模型（LLMs），并分析了CLEAR框架的各个组件，表明现有LLMs需要显著改进以应对专家级任务。

EXPERTLONGBENCH is an expert-level benchmark dataset comprising 11 tasks spanning 9 domains, which mirrors real-world expert workflows and practical applications. This dataset requires models to generate long-form outputs exceeding 5000 tokens and strictly adheres to domain-specific requirements. Each task includes a scoring criterion designed or validated by domain experts to specify task requirements and guide output evaluation. Furthermore, this study proposes the CLEAR evaluation framework, which supports accurate assessment of long-form model outputs. Using EXPERTLONGBENCH, this study evaluates 11 large language models (LLMs), analyzes various components of the CLEAR framework, and demonstrates that existing LLMs need substantial improvements to tackle expert-level tasks.

提供机构：

密歇根大学计算机科学与工程学院, 密歇根大学法学院, 密歇根大学信息学院, 密歇根大学材料科学与工程学院, 卡内基梅隆大学化学系, 密歇根大学生物医学工程系

创建时间：

2025-06-02

搜集汇总

数据集介绍

构建方式

EXPERTLONGBENCH是一个多领域专家级基准测试，包含来自9个领域的11个任务，共计1050个样本。这些任务源自真实的专家应用场景，而非传统的问答情境，要求生成符合领域特定标准的长篇输出。每个任务都配有专家设计和验证的评估细则，作为评估指南。为了评估模型在这些专家任务上的长篇输出，我们设计了CLEAR评估框架，该框架将模型输出和参考输出映射到基于细则的检查表中，并进行逐项比较，从而产生与领域特定要求一致的细粒度、有根据的评估。

使用方法

使用EXPERTLONGBENCH时，首先需要根据任务输入生成符合要求的长篇输出。然后，利用CLEAR评估框架将模型输出和参考输出映射到基于细则的检查表中，并进行逐项比较。评估过程包括生成检查表映射的模型响应、使用检查表评估响应质量以及验证评估组件的有效性。通过这种方式，可以实现对模型输出的细粒度和客观评估，确保其符合领域特定要求。

背景与挑战

背景概述

EXPERTLONGBENCH是由密歇根大学等机构的研究团队于2025年推出的一个多领域专家级基准测试数据集，旨在评估大型语言模型在需要专业知识和长文本生成的真实工作流程中的表现。该数据集包含来自9个不同领域的11项任务，共计1050个样本，涵盖了法律、材料科学、教育、医疗等多个专业领域。数据集的创建旨在解决现有基准测试在专家级任务评估上的不足，如缺乏长文本输出要求、领域特定标准遵循不足等问题。EXPERTLONGBENCH的每个任务都配备了由领域专家设计或验证的评估细则，确保评估与专业要求紧密对齐。

当前挑战

EXPERTLONGBENCH面临的挑战主要包括两个方面：1) 领域问题的挑战：该数据集旨在解决专家级任务中模型生成内容的准确性和专业性不足的问题，特别是在需要长文本输出和严格遵循领域特定要求的场景下。例如，在法律案例摘要生成任务中，模型需要准确识别案件的法律依据和关键事实，同时生成符合法律专业标准的摘要。2) 构建过程中的挑战：数据集的构建需要跨多个专业领域的深度合作，确保评估细则的专业性和全面性；同时，处理长文本输入和输出（如超过5000个标记的文本）对数据处理和评估方法提出了更高的技术要求。此外，为每个任务创建专家验证的参考输出和评估细则也是一项耗时且复杂的工作。

常用场景

经典使用场景

EXPERTLONGBENCH数据集专为评估大型语言模型在专家级长文本生成任务中的表现而设计，涵盖了法律、材料科学、教育、医疗等9个领域的11项任务。该数据集最经典的使用场景包括法律案件多文档摘要生成、临床记录撰写、分子结构描述等需要专业知识和严格遵循领域特定标准的复杂任务。在医疗领域，该数据集可用于评估模型生成符合SOAP格式临床记录的能力；在法律领域，则可用于测试模型从大量法律文件中提取关键信息并生成专业摘要的准确性。

解决学术问题

该数据集解决了当前专家级评估基准存在的三个关键学术问题：首先，突破了传统选择题或简答题形式的局限，支持对端到端专家工作流程的全面评估；其次，通过专家设计的评估细则和结构化检查表，实现了细粒度、客观的内容评估，解决了现有评估方法主观性强的问题；最后，提供了专家撰写的参考输出，为模型输出的准确性评估提供了可靠标准，弥补了现有基准缺乏真实参考的缺陷。

实际应用

在实际应用层面，EXPERTLONGBENCH可直接支持多个专业领域的智能化转型。在法律领域，可辅助律师快速处理大量案件材料；在医疗领域，能帮助医生自动生成规范的临床记录；在教育领域，可为个性化教学系统提供反馈生成能力评估。这些应用显著提升了专业工作的效率，同时通过标准化输出降低了人为错误风险。数据集特别设计的超长文本处理能力（支持20万token输入和5千token输出）使其能够满足真实场景中处理复杂文档的需求。

数据集最近研究