MuSciClaims
收藏Hugging Face2025-07-31 更新2025-08-01 收录
下载链接:
https://huggingface.co/datasets/StonyBrookNLP/MuSciClaims
下载链接
链接失效反馈官方服务:
资源简介:
MuSciClaims是一个用于评估科学声明与图表关联性的多模态数据集。它包含了从科学文章中自动提取的支持性声明,并通过手动干扰产生矛盾声明。这些干扰旨在测试特定的声明验证能力。数据集还包括一套诊断任务,帮助理解模型失败的原因。数据集的语言为英语,采用CC by 4.0许可。
提供机构:
LUNR lab at Stony Brook University
创建时间:
2025-07-30
原始信息汇总
MuSciClaims数据集概述
数据集基本信息
- 任务类别: 零样本分类(zero-shot-classification)
- 语言: 英语(en)
- 领域标签: 化学(chemistry)、生物学(biology)、物理学(physics)
- 数据集名称: MuSciClaims
- 数据规模: 1K<n<10K
- 默认配置:
- 数据文件: test_set.jsonl
- 分割: test
数据集字段说明
| 字段名称 | 数据类型 | 描述 |
|---|---|---|
| base_claim_id | string | 原始基础声明的ID |
| claim_id | string | 每个变体(支持/矛盾/中立)的唯一ID |
| claim_text | string | 声明文本 |
| label_3class | string | 三分类标签(SUPPORT/CONTRADICT/NEUTRAL) |
| label_2class | string | 二分类标签(SUPPORT/NON_SUPPORT) |
| paper_id | string | 科学论文的ID |
| associated_figure_filepath | string | 关联图像文件的路径 |
| associated_figure_number | string | 图像文件名中的图号(如Figure 2) |
| associated_figure_panels | sequence<string> | 面板名称列表(如[Panel A, Panel B]) |
| caption | string | 关联图像的清理后标题文本 |
| claim_from_which_random_figure_is_taken | string | (对于NEUTRAL)声明的ID或"random_figure" |
数据集描述
- 目的: 评估科学声明需要识别、提取和推理科学文献中信息丰富的多模态数据
- 特点:
- 首个可直接测试声明验证能力的多模态基准
- 自动从科学文章中提取支持的声明
- 手动扰动产生矛盾的声明
- 语言: 英语
- 许可证: CC by 4.0
数据来源
- 来源期刊: Cell期刊、美国化学会期刊、Nature Physics期刊
- 论文: MuSciClaims: Multimodal Scientific Claim Verification
使用方式
- 主要用途: 研究NLP和CV模型是否能判断给定声明与呈现图像的关联(支持/中立/矛盾)
- 加载方式: 使用
load_dataset函数从Hugging Face加载 - 关联图像下载: 使用
hf_hub_download函数下载
引用信息
BibTeX: bibtex @misc{lal2025musciclaimsmultimodalscientificclaim, title={MuSciClaims: Multimodal Scientific Claim Verification}, author={Yash Kumar Lal and Manikanta Bandham and Mohammad Saqib Hasan and Apoorva Kashi and Mahnaz Koupaee and Niranjan Balasubramanian}, year={2025}, eprint={2506.04585}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.04585}, }
数据集作者
Yash Kumar Lal, Manikanta Bandham, Mohammad Saqib Hasan, Apoorva Kashi, Mahnaz Koupaee, Niranjan Balasubramanian
搜集汇总
数据集介绍

构建方式
MuSciClaims数据集通过自动化方法从科学文献中提取支持性声明,并经过人工干预生成矛盾性声明,构建了一个多模态科学声明验证基准。该数据集精选自物理学、化学和生物学领域的同行评议期刊,包括《Cell》、《美国化学学会杂志》和《自然物理学》等权威出版物。数据构建过程注重声明与相关科学图表之间的关联性,通过特定扰动策略测试声明验证能力,为多模态科学推理提供了结构化数据支持。
使用方法
使用MuSciClaims数据集时,可通过Hugging Face的datasets库直接加载测试集。数据集支持声明验证任务的基准测试,研究者可结合声明文本与关联图表进行多模态建模。配套的Python代码示例展示了如何下载和可视化关联图表,便于进行数据探索性分析。该数据集特别适合用于评估NLP与CV模型在科学声明验证任务中的表现,但需注意其设计初衷不适用于单模态或非科学领域的迁移学习场景。
背景与挑战
背景概述
MuSciClaims数据集由Yash Kumar Lal等研究人员于2025年创建,旨在填补科学文献多模态推理领域的空白。该数据集聚焦于化学、生物学和物理学领域,通过从科学论文中自动提取支持性主张,并人工扰动生成矛盾性主张,构建了一个多模态科学主张验证基准。其核心研究问题在于评估模型如何判断给定主张与相关图像之间的支持、中立或矛盾关系。作为首个直接测试多模态主张验证能力的基准,MuSciClaims为科学文献理解、多模态推理等研究提供了重要资源,推动了人工智能在科学验证领域的应用。
当前挑战
MuSciClaims数据集面临双重挑战。在领域问题层面,科学主张验证需要模型具备跨模态对齐能力,准确理解文本主张与复杂科学图表之间的语义关联,这对现有自然语言处理和计算机视觉技术提出了更高要求。在构建过程中,数据收集需处理来自《Cell》、《美国化学会志》等顶级期刊的异构科学图表,其多样化的呈现形式和专业内容增加了数据清洗和标注难度。此外,人工生成矛盾性主张时需保持语义扰动合理性,确保生成的负样本既具有挑战性又不失科学性,这一过程对领域专业知识依赖较强。
常用场景
经典使用场景
在跨模态科学文献分析领域,MuSciClaims数据集为研究者提供了一个独特的基准测试平台。该数据集通过整合科学论文中的文本声明与对应图表信息,构建了支持、中立和矛盾三类标签的多模态验证任务。其典型应用场景包括训练和评估模型对科学声明与图表内容一致性的判断能力,尤其在化学、生物学和物理学等自然科学领域,这种跨模态推理能力对文献自动分析具有重要意义。
解决学术问题
MuSciClaims有效解决了科学文献验证中的关键学术挑战。传统方法往往单独处理文本或图像信息,而该数据集首次系统性地建立了科学声明与实验数据图表之间的验证关联。通过人工干预生成的矛盾声明,研究者能够深入探究模型在识别细微科学表述差异方面的能力,这对提升科学事实核查的自动化水平具有突破性意义,填补了多模态科学验证基准的空白。
实际应用
该数据集的实际价值体现在科研辅助工具的研发中。学术出版机构可基于此开发自动化的论文声明验证系统,检测图表与文本描述的一致性;教育领域能构建科学事实核查训练平台;科研人员则可利用其开发文献智能阅读助手,快速定位关键实验证据。尤其在交叉学科研究中,这种结合视觉与文本的验证机制能显著提升文献调研效率。
数据集最近研究
最新研究方向
随着多模态学习在科学文献分析中的重要性日益凸显,MuSciClaims数据集为科学声明验证领域提供了关键的研究基准。该数据集聚焦于化学、生物学和物理学领域,通过自动提取科学文章中的支持性声明并人工扰动生成矛盾声明,构建了一个多模态验证任务框架。当前研究热点集中在探索视觉语言模型对科学声明与关联图像之间支持、中立或矛盾关系的判断能力,尤其是在零样本分类场景下的表现。这一方向与科学事实核查、学术不端检测等实际需求密切相关,为提升学术文献的可信度评估提供了新的技术路径。数据集设计的诊断任务进一步帮助研究者深入理解模型在多模态科学推理中的失败模式,推动了跨模态表示学习领域的方法创新。
以上内容由遇见数据集搜集并总结生成



