MISMATCHED

Name: MISMATCHED
Creator: 伊利诺伊大学芝加哥分校和堪萨斯州立大学
Published: 2025-06-05 11:40:57
License: 暂无描述

arXiv2025-06-05 更新2025-06-07 收录

下载链接：

https://github.com/fshaik8/MisMatched

下载链接

链接失效反馈

官方服务：

资源简介：

MISMATCHED是一个科学自然语言推理（NLI）的基准数据集，包含来自心理学、工程和公共卫生三个非计算机科学领域的2700个人工标注的句子对。该数据集旨在为科学NLI任务提供一个更具挑战性的基准，并评估模型在跨领域情况下的鲁棒性。数据集的开发过程包括自动数据提取和标注以及人工标注，以确保数据的质量和多样性。MISMATCHED数据集的引入为科学NLI领域的研究提供了新的资源和视角。

MISMATCHED is a benchmark dataset for scientific natural language inference (NLI). It contains 2700 manually annotated sentence pairs from three non-computer science domains: psychology, engineering, and public health. This dataset aims to provide a more challenging benchmark for the scientific NLI task and evaluate the robustness of models across different domains. The development of the MISMATCHED dataset involves automatic data extraction and annotation, as well as manual annotation, to ensure data quality and diversity. The introduction of the MISMATCHED dataset offers new resources and perspectives for research in the field of scientific NLI.

提供机构：

伊利诺伊大学芝加哥分校和堪萨斯州立大学

创建时间：

2025-06-05

搜集汇总

数据集介绍

构建方式

MISMATCHED数据集的构建采用了分阶段的方法，首先通过自动提取和标注句子对，利用远程监督方法识别显式关系标记词（如‘However’、‘Therefore’等）来标注ENTAILMENT、CONTRASTING和REASONING类别。对于NEUTRAL类别，则随机配对非相邻句子。第二阶段通过专业众包平台COGITO进行人工标注，确保标注质量。最终数据集包含2700个句子对，均匀分布在心理学、工程学和公共卫生三个非计算机科学领域。

特点

MISMATCHED数据集的特点在于其专注于非计算机科学领域，填补了现有科学自然语言推理数据集的空白。数据集包含四个语义关系类别，且通过人工标注确保了高质量。此外，数据集的句子对平均长度和句法完整性与其他科学NLI数据集相似，但领域多样性更高，使其成为评估模型跨领域鲁棒性的理想测试平台。

使用方法

MISMATCHED数据集主要用于评估科学自然语言推理模型的跨领域性能。研究者可以通过微调预训练的小型语言模型（如BERT、SCIBERT）或提示大型语言模型（如LLAMA、GPT-4）来建立基线。数据集仅包含开发和测试集，因此需结合其他科学NLI数据集的训练集进行模型训练。此外，数据集中隐含的语义关系可用于增强模型的训练数据，提升其性能。

背景与挑战

背景概述

MISMATCHED是由伊利诺伊大学芝加哥分校和堪萨斯州立大学的研究团队于2025年提出的科学自然语言推理（Scientific NLI）评估基准。该数据集专注于非计算机科学领域，涵盖心理学、工程学和公共卫生三个学科，包含2700个人工标注的句子对。作为科学NLI领域首个跨出计算机科学范畴的基准，MISMATCHED通过构建领域外（OOD）测试环境，旨在评估模型在跨学科场景下的语义推理能力。其创新性体现在采用远程监督与人工标注相结合的方法，并首次系统性地探索了科学文本中隐含推理关系的利用价值。该数据集的发布弥补了现有科学NLI数据集领域覆盖单一的缺陷，为评估模型的领域泛化能力提供了重要工具。

当前挑战

MISMATCHED面临的核心挑战体现在两个方面：在领域问题层面，科学NLI需要处理比通用NLI更复杂的语义关系（如推理、对比等），且跨学科术语和表达差异显著增加了模型理解难度，当前最佳模型的宏观F1仅为78.17%。在构建过程层面，非CS领域专业文本获取与标注成本较高，需领域专家参与；隐含关系的识别缺乏明确语言标记，标注一致性面临挑战（中性类标注一致率仅68.3%）；此外，保持跨学科数据平衡（每领域900例）与避免领域特定偏差也增加了构建复杂度。这些挑战使得该数据集成为检验模型科学文本深度理解的试金石。

常用场景

经典使用场景

MISMATCHED数据集作为科学自然语言推理（NLI）领域的评估基准，主要用于测试模型在非计算机科学领域的泛化能力。该数据集涵盖了心理学、工程学和公共卫生三个非CS领域，包含2700个人工标注的句子对。其经典使用场景包括评估预训练小语言模型（SLMs）和大语言模型（LLMs）在跨领域科学文本中的推理能力，尤其是在缺乏显式关联词的情况下识别隐含语义关系。

实际应用

该数据集的实际价值体现在提升科学文献理解系统的实用性。通过分析研究论文中句子间的推理、对比和蕴含关系，可辅助构建智能文献综述工具、学术知识图谱和跨领域研究推荐系统。例如，在公共卫生领域，模型对‘标记基因与病原体风险关联’的推理能力（如表1示例）可加速流行病学研究的证据整合。此外，其标注范式为自动生成论文摘要中的逻辑连接词提供了技术基础。

衍生相关工作

MISMATCHED的发布催生了多项延伸研究：1）基于其隐含关系发现的工作（如第5节）推动了无显式连接词的语篇分析模型发展；2）与SCINLI、MSCINLI构成的科学NLI数据集族被广泛应用于领域适应方法研究（如DOMAIN-ADAPTIVE SCIBERT）；3）其跨领域特性启发了后续工作如CHEMNLI（化学领域）和PHYSICSNLI（物理学领域）的构建。此外，该数据集被纳入HuggingFace基准测试，成为评估LLMs科学推理能力的标准工具之一。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集