Tevatron/scifact
收藏Hugging Face2026-05-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Tevatron/scifact
下载链接
链接失效反馈官方服务:
资源简介:
SciFact是一个科学事实核查数据集,包含查询(query)及其相关文档,分为正面文档(positive_passages)和负面文档(negative_passages),用于训练和评估信息检索或事实核查模型。每个查询有唯一的query_id,文档包括docid、title和text字段,支持对科学声明的验证任务。
SciFact is a scientific fact-checking dataset containing queries and associated documents, divided into positive passages and negative passages, used for training and evaluating information retrieval or fact-checking models. Each query has a unique query_id, and documents include docid, title, and text fields, supporting verification tasks for scientific claims.
提供机构:
Tevatron
搜集汇总
数据集介绍

构建方式
SciFact数据集是通过系统化收集科学文献中的事实性陈述与相应证据段落构建而成。其构建过程聚焦于从同行评审的学术论文中提取可验证的声明,并为每个查询语句匹配对应的支持性(正样本)和反驳性(负样本)证据片段。数据集中的每个条目均包含一个唯一查询标识符、用户提出的自然语言查询,以及两列结构化证据序列:正例证据包含支持该查询的相关文档元数据与全文,负例证据则提供相反立场的文献依据。这种双轨制设计使得模型能够同时学习从文献中识别和区分语义一致与矛盾的信息。
特点
SciFact数据集的显著特色在于其专门面向科学事实验证场景,覆盖生物医学、物理等多个学科领域的细粒度证据推理。其查询语句来源于真实科学争论,具备高度领域专业性与逻辑复杂度。正负样本的精心配比要求模型不仅具备语义匹配能力,还需掌握跨文档的证据权衡与矛盾识别技巧。每个证据片段均保留了原始文献的标题、文本摘要及文档标识符,确保了信息溯源的可信度与可复现性。此外,数据集规模适中,既避免了小样本导致的过拟合风险,又为深度模型的训练与评估提供了理想的基准规模。
使用方法
使用SciFact数据集时,研究者需构建能够接收查询语句与候选证据段落对的模型架构。典型管道包括将每个查询与正负样本分别编码为稠密向量,通过对比学习或排序损失函数优化相似度度量。数据加载时需注意利用动态批次策略平衡正负样本分布,并依据查询标识符分离训练集与测试集。对于推理阶段,模型需对给定的查询-证据对输出置信度分数,支持端到端的证据判定。建议采用预训练语言模型(如BioBERT或SciBERT)作为基座,利用其领域知识增强科学文本的语义理解能力。
背景与挑战
背景概述
科学文献证据的精确检索与验证是推动循证医学和科学研究可重复性的关键环节。SciFact数据集由华盛顿大学、艾伦人工智能研究所等机构的研究人员于2020年创建,旨在解决科学主张与文献证据之间的自动核对问题。其核心研究任务聚焦于从大规模科学文献语料中,为给定的生物医学类主张精准匹配支持性或反驳性证据段落。通过构建包含查询、正向证据和负向证据三元组的结构化语料,该数据集为事实核查、信息检索和自然语言推理提供了重要的基准测试平台,显著推动了候选证据检索与声明验证联合系统的学术进展。
当前挑战
SciFact所锚定的领域挑战在于,科学主张常以高度压缩的抽象表述呈现,而完整证据链往往散见于多篇文献的方法、结果与讨论章节中,模型需跨越长距离语义鸿沟进行细粒度关联。此外,科学文献中存在大量语义相似但逻辑对立的陈述,如“A抑制B”与“A不抑制B”,要求系统具备精准的否定和量词处理能力。在构建层面,人工标注专家需从密集的论文正文中辨别出仅符合作者意图的单一证据句,既面临标注一致性维护的挑战,也需克服实验成本高昂与领域知识深度依赖的局限。
常用场景
经典使用场景
在科学文献检索与证据推理的交叉领域中,SciFact数据集作为一项标杆性资源,被广泛用于训练和评估基于科学文本的细粒度事实核查模型。研究者利用该数据集中的查询、正向与负向科学文献片段,构建能够从海量论文中精准筛选支持或反驳特定科学主张的系统。其核心任务要求模型不仅具备信息检索能力,更需理解复杂的科学论证逻辑,因此成为检验神经检索模型与预训练语言模型在科学领域语义匹配与推理能力的重要基准。
解决学术问题
SciFact数据集直击科学传播中事实一致性验证的学术难题,填补了传统事实核查数据集在科学领域精细化标注的空白。它解决了如何从结构化科学文献中系统评估声明可信度的关键问题,推动了可解释证据提取方法的发展。通过提供明确的正负例文献引用,该数据集激励学界探索超越简单关键词匹配的深层语义对齐技术,为构建具备因果推理能力的科学审校模型奠定了基础,显著提升了自动化科学事实核查的严谨性与可复现性。
衍生相关工作
围绕SciFact数据集,衍生出多项具有代表性的研究工作。例如,基于其任务范式,学界提出了结合密集检索与跨编码器的两阶段证据抽取框架(如SPECTER),以及利用对比学习增强科学语句表示的方法(如SciNLI)。更有工作将SciFact与综合知识库融合,构建多跳推理基准(如SciQAG),或探索零样本场景下科学声明生成与验证的联合训练策略。这些衍生工作不仅深化了对科学文本论证结构的理解,还推动了检索增强生成技术在严谨科学领域的应用边界。
以上内容由遇见数据集搜集并总结生成



