MuSciClaims

Name: MuSciClaims
Creator: LUNR lab at Stony Brook University
Published: 2025-07-31 19:44:34
License: 暂无描述

Hugging Face2025-07-31 更新2025-08-01 收录

下载链接：

https://huggingface.co/datasets/StonyBrookNLP/MuSciClaims

下载链接

链接失效反馈

官方服务：

资源简介：

MuSciClaims是一个用于评估科学声明与图表关联性的多模态数据集。它包含了从科学文章中自动提取的支持性声明，并通过手动干扰产生矛盾声明。这些干扰旨在测试特定的声明验证能力。数据集还包括一套诊断任务，帮助理解模型失败的原因。数据集的语言为英语，采用CC by 4.0许可。

提供机构：

LUNR lab at Stony Brook University

创建时间：

2025-07-30

原始信息汇总

MuSciClaims数据集概述

数据集基本信息

任务类别: 零样本分类(zero-shot-classification)
语言: 英语(en)
领域标签: 化学(chemistry)、生物学(biology)、物理学(physics)
数据集名称: MuSciClaims
数据规模: 1K<n<10K
默认配置:
- 数据文件: test_set.jsonl
- 分割: test

数据集字段说明

字段名称	数据类型	描述
base_claim_id	string	原始基础声明的ID
claim_id	string	每个变体(支持/矛盾/中立)的唯一ID
claim_text	string	声明文本
label_3class	string	三分类标签(SUPPORT/CONTRADICT/NEUTRAL)
label_2class	string	二分类标签(SUPPORT/NON_SUPPORT)
paper_id	string	科学论文的ID
associated_figure_filepath	string	关联图像文件的路径
associated_figure_number	string	图像文件名中的图号(如Figure 2)
associated_figure_panels	sequence<string>	面板名称列表(如[Panel A, Panel B])
caption	string	关联图像的清理后标题文本
claim_from_which_random_figure_is_taken	string	(对于NEUTRAL)声明的ID或"random_figure"

数据集描述

目的: 评估科学声明需要识别、提取和推理科学文献中信息丰富的多模态数据
特点:
- 首个可直接测试声明验证能力的多模态基准
- 自动从科学文章中提取支持的声明
- 手动扰动产生矛盾的声明
语言: 英语
许可证: CC by 4.0

数据来源

来源期刊: Cell期刊、美国化学会期刊、Nature Physics期刊
论文: MuSciClaims: Multimodal Scientific Claim Verification

使用方式

主要用途: 研究NLP和CV模型是否能判断给定声明与呈现图像的关联(支持/中立/矛盾)
加载方式: 使用load_dataset函数从Hugging Face加载
关联图像下载: 使用hf_hub_download函数下载

引用信息

BibTeX: bibtex @misc{lal2025musciclaimsmultimodalscientificclaim, title={MuSciClaims: Multimodal Scientific Claim Verification}, author={Yash Kumar Lal and Manikanta Bandham and Mohammad Saqib Hasan and Apoorva Kashi and Mahnaz Koupaee and Niranjan Balasubramanian}, year={2025}, eprint={2506.04585}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.04585}, }

数据集作者

Yash Kumar Lal, Manikanta Bandham, Mohammad Saqib Hasan, Apoorva Kashi, Mahnaz Koupaee, Niranjan Balasubramanian

搜集汇总

数据集介绍

构建方式

MuSciClaims数据集通过自动化方法从科学文献中提取支持性声明，并经过人工干预生成矛盾性声明，构建了一个多模态科学声明验证基准。该数据集精选自物理学、化学和生物学领域的同行评议期刊，包括《Cell》、《美国化学学会杂志》和《自然物理学》等权威出版物。数据构建过程注重声明与相关科学图表之间的关联性，通过特定扰动策略测试声明验证能力，为多模态科学推理提供了结构化数据支持。

使用方法

使用MuSciClaims数据集时，可通过Hugging Face的datasets库直接加载测试集。数据集支持声明验证任务的基准测试，研究者可结合声明文本与关联图表进行多模态建模。配套的Python代码示例展示了如何下载和可视化关联图表，便于进行数据探索性分析。该数据集特别适合用于评估NLP与CV模型在科学声明验证任务中的表现，但需注意其设计初衷不适用于单模态或非科学领域的迁移学习场景。

背景与挑战

背景概述

MuSciClaims数据集由Yash Kumar Lal等研究人员于2025年创建，旨在填补科学文献多模态推理领域的空白。该数据集聚焦于化学、生物学和物理学领域，通过从科学论文中自动提取支持性主张，并人工扰动生成矛盾性主张，构建了一个多模态科学主张验证基准。其核心研究问题在于评估模型如何判断给定主张与相关图像之间的支持、中立或矛盾关系。作为首个直接测试多模态主张验证能力的基准，MuSciClaims为科学文献理解、多模态推理等研究提供了重要资源，推动了人工智能在科学验证领域的应用。

当前挑战

MuSciClaims数据集面临双重挑战。在领域问题层面，科学主张验证需要模型具备跨模态对齐能力，准确理解文本主张与复杂科学图表之间的语义关联，这对现有自然语言处理和计算机视觉技术提出了更高要求。在构建过程中，数据收集需处理来自《Cell》、《美国化学会志》等顶级期刊的异构科学图表，其多样化的呈现形式和专业内容增加了数据清洗和标注难度。此外，人工生成矛盾性主张时需保持语义扰动合理性，确保生成的负样本既具有挑战性又不失科学性，这一过程对领域专业知识依赖较强。

常用场景

经典使用场景

在跨模态科学文献分析领域，MuSciClaims数据集为研究者提供了一个独特的基准测试平台。该数据集通过整合科学论文中的文本声明与对应图表信息，构建了支持、中立和矛盾三类标签的多模态验证任务。其典型应用场景包括训练和评估模型对科学声明与图表内容一致性的判断能力，尤其在化学、生物学和物理学等自然科学领域，这种跨模态推理能力对文献自动分析具有重要意义。

解决学术问题

MuSciClaims有效解决了科学文献验证中的关键学术挑战。传统方法往往单独处理文本或图像信息，而该数据集首次系统性地建立了科学声明与实验数据图表之间的验证关联。通过人工干预生成的矛盾声明，研究者能够深入探究模型在识别细微科学表述差异方面的能力，这对提升科学事实核查的自动化水平具有突破性意义，填补了多模态科学验证基准的空白。

实际应用

该数据集的实际价值体现在科研辅助工具的研发中。学术出版机构可基于此开发自动化的论文声明验证系统，检测图表与文本描述的一致性；教育领域能构建科学事实核查训练平台；科研人员则可利用其开发文献智能阅读助手，快速定位关键实验证据。尤其在交叉学科研究中，这种结合视觉与文本的验证机制能显著提升文献调研效率。

数据集最近研究