CLAIM-BENCH
收藏arXiv2025-06-10 更新2025-06-12 收录
下载链接:
https://github.com/CLAIM_BENCH/CLAIM-BENCH
下载链接
链接失效反馈官方服务:
资源简介:
CLAIM-BENCH是一个用于评估大型语言模型(LLMs)在科学论断提取和验证方面能力的全面基准。该数据集由4名具有研究经验的博士生根据特定指南进行整理,包括从2024年的非数学密集型、长度在0到20页的研究论文中选取。为了确保数据集的可靠性,我们对30篇论文进行了重新标注,并测量了标注者之间的一致性。数据集在GitHub上公开发布,为LLMs的科学理解评估提供了新的标准。
CLAIM-BENCH is a comprehensive benchmark for evaluating the capabilities of large language models (LLMs) in scientific claim extraction and verification. This dataset was curated by four doctoral researchers with research experience, following specific guidelines, and is sourced from 2024 non-mathematically intensive research papers with lengths ranging from 0 to 20 pages. To ensure the dataset's reliability, we re-annotated 30 of these papers and measured inter-annotator agreement. The dataset is publicly released on GitHub, providing a new standard for evaluating the scientific understanding capabilities of LLMs.
提供机构:
斯滕斯理工学院
创建时间:
2025-06-10
搜集汇总
数据集介绍

构建方式
CLAIM-BENCH数据集的构建过程体现了严谨的科学方法论。研究团队由四位具有博士学历的研究人员参与标注工作,确保了对科学论文结构的深刻理解。标注过程中采用了专门开发的PDF标注工具,支持对论文中的声明(claim)和证据(evidence)进行精确标注,并存储为一对多的JSON结构。为确保数据质量,团队进行了严格的标注一致性检验,通过F1分数和Cohen's κ系数评估标注者间一致性,结果显示声明标注达到0.755(F1)和0.66(κ),证实了数据集作为基准测试的可靠性。
特点
CLAIM-BENCH作为科学论证理解领域的专业基准,具有三个显著特征:首先,它专注于科学论文中声明与证据的复杂关联,要求模型具备跨章节的全局推理能力;其次,数据集覆盖多个研究领域,包含300多对声明-证据关系,具有充分的多样性和代表性;最后,其评估指标不仅包含传统的信息检索指标(精确率、召回率、F1值),还创新性地引入了句子间隔(sentence_gap)指标,专门用于衡量模型处理长距离文本关系的能力。
使用方法
CLAIM-BENCH提供了三种系统化的评估方法:单次处理(Single-Pass)策略通过单一提示全面评估模型性能;三次处理(Three-Pass)策略采用分阶段方法依次提取声明、证据和结论;逐项处理(One-by-One)策略则对每个声明单独进行证据检索。研究人员可根据需求选择适当策略,通过精确设计的提示模板(包含在附录中)指导模型完成科学论证理解任务。评估结果以标准化JSON格式输出,便于进行系统化比较和分析。
背景与挑战
背景概述
CLAIM-BENCH是由Stevens Institute of Technology的研究团队于2025年提出的一个综合性基准测试,旨在评估大型语言模型(LLMs)在科学论文中识别和验证主张与证据关系的能力。该数据集由四名具有研究经验的博士生精心标注,涵盖了2024年发表的100篇论文,涉及人工智能和机器学习领域的多个研究方向。CLAIM-BENCH的创建填补了现有基准测试在科学推理能力评估上的空白,为研究社区提供了一个诊断工具,帮助理解LLMs在复杂科学内容处理中的局限性。该数据集通过系统比较六种不同LLMs在三种提示策略下的表现,揭示了模型在科学理解深度上的显著差异,为未来AI驱动的科学研究工具的发展指明了方向。
当前挑战
CLAIM-BENCH面临的挑战主要体现在两个方面:领域问题的复杂性和构建过程的困难。在领域问题方面,科学论文中的主张与证据关系通常分散在文档的不同部分,要求模型具备全局推理能力和对逻辑依赖的细致理解,这对LLMs的长上下文理解和信息整合能力提出了极高要求。在构建过程中,标注工作面临证据稀疏性和边界模糊的挑战,证据标注的Cohen's κ仅为0.30,反映出即使是人类专家在证据识别上也存在较大分歧。此外,数据集的代表性受到论文选择范围(仅限于2024年非数学密集型AI/ML论文)的限制,可能影响评估结果的普适性。计算效率也是重要挑战,如Phi模型在One-by-One策略下单次分析耗时超过2000秒,凸显了全面评估的高计算成本。
常用场景
经典使用场景
在自然语言处理领域,CLAIM-BENCH数据集被广泛应用于评估大型语言模型(LLMs)在科学文献中的声明-证据推理能力。该数据集通过系统化的标注流程,提供了丰富的声明-证据对,使得研究者能够深入分析模型在复杂科学文本中的理解深度和逻辑推理能力。其经典使用场景包括模型性能的基准测试、提示策略的优化以及长上下文理解能力的评估。
衍生相关工作
CLAIM-BENCH数据集催生了一系列相关研究,尤其是在科学文本理解和长上下文处理领域。例如,基于该数据集的研究提出了多种提示策略(如三阶段提示和逐条提示),显著提升了模型在声明-证据任务中的表现。此外,该数据集还被用于开发新的评估指标(如句子间隔度量),进一步推动了科学文本理解领域的方法创新。
数据集最近研究
最新研究方向
CLAIM-BENCH作为评估大语言模型(LLMs)科学推理能力的新型基准,近期研究聚焦于三大前沿方向:首先,探索多模态提示策略对长文本科学论证理解的优化效果,通过三阶段分解式提示(Three-Pass)和逐项验证(One-by-One)等方法,显著提升模型在跨段落证据链构建中的表现。其次,针对开源与闭源模型的性能差异,研究发现GPT-4和Claude等闭源模型在证据召回率上平均领先开源模型23.5%,但在计算效率方面,LLaMA等开源架构展现出更强的可扩展性。第三,该数据集推动了科学文献质量评估系统的研发,其创新的句子间隔指标(sentence_gap)为衡量模型长程推理能力提供了量化标准,相关成果已被应用于自动同行评审和跨论文知识图谱构建等热点领域。
相关研究论文
- 1Can AI Validate Science? Benchmarking LLMs for Accurate Scientific Claim $\rightarrow$ Evidence Reasoning斯滕斯理工学院 · 2025年
以上内容由遇见数据集搜集并总结生成



