SciCiteVal

Hugging Face2026-02-26 更新2026-02-27 收录

下载链接：

https://huggingface.co/datasets/birdie0111/SciCiteVal

下载链接

链接失效反馈

官方服务：

资源简介：

SciCiteVal数据集专为引文验证任务设计，包含人工标注的引文标签，分为“正确”、“错误”和“无关”三类。对于标注为“错误”的引文，进一步定义了五个子类别以描述不准确的性质。每个数据样本由引用论文中的**引文上下文**和被引论文中支持标签的**证据段落**组成。数据集包含1,034条引文，分布在机器学习与生物学领域的科学论文中，其中302条正确引文、302条错误引文和430条无关引文。正确和错误引文改编自QASA数据集，无关引文则从实际论文中提取。数据集包含四列数据：“引文上下文”、“被引内容”、“标签”和“扭曲类别”，适用于文本分类任务。数据标注过程包括对QASA数据的验证转换（正确引文）、系统性扭曲（错误引文）以及跨领域手动收集（无关引文）。数据集以TSV格式提供，采用CC-BY-4.0许可协议。

创建时间：

2026-02-20

搜集汇总

数据集介绍

构建方式

在科学文献引用验证领域，SciCiteVal数据集的构建体现了严谨的学术规范。该数据集以QASA数据集为基础，通过系统化的人工标注流程构建而成。对于正确的引用，标注者手动验证并将原始“组合”文本转化为标准引用语境；对于不正确的引用，由两位具有自然语言处理背景的标注者系统性地扭曲原始内容，以生成不准确的引用表述，同时仅作最小改动以保持语句流畅性。无关引用则从跨学科的科学论文中手动收集，仅选取正文中的完整句子，排除了图表内容。整个构建过程确保了数据样本由引用语境与证据段落配对组成，为引用准确性评估提供了结构化基础。

特点

SciCiteVal数据集展现出多维度特征，使其在引用验证任务中独具价值。数据集包含1,034个引用样本，均衡分布于正确、不正确和无关三个类别，其中不正确引用进一步细分为五个扭曲子类别，以精确刻画不准确性的本质。样本来源涵盖机器学习和生物学领域的科学论文，确保了领域代表性。数据结构清晰，包含引用语境、被引内容、标签及扭曲类别四列，为模型训练与评估提供了完整信息。此外，数据集与QASA和CiteScreener等现有资源相关联，增强了其可比性和扩展性。

使用方法

SciCiteVal数据集主要支持文本分类任务，特别是引用准确性验证。用户可通过加载experiment_dataset.tsv文件获取基准测试所需的输入数据，该文件以制表符分隔格式存储样本对。数据集适用于零样本和少样本提示的模型评估，相关结果和混淆矩阵图可在Results_cleaned及Few_shot_matrix等目录中查阅。使用时应依据引用语境与被引内容的配对进行模型训练或推理，标签字段指导分类决策，扭曲类别字段则为错误分析提供细粒度洞察。该设计便于研究者直接应用于自然语言处理模型的开发与性能比较。

背景与挑战

背景概述

SciCiteVal数据集诞生于科学文献计量与自然语言处理交叉领域，旨在推动学术引用验证的自动化研究。该数据集由专注于信息检索与学术文本分析的科研团队构建，核心研究问题聚焦于如何精准识别科学论文中引用的准确性，即区分正确引用、错误引用及无关引用。通过人工标注方式，该数据集为机器学习与生物学领域的引用行为提供了细粒度标注，不仅深化了学术不端检测的实证基础，也为引文语义理解模型的发展提供了关键训练资源，对提升学术交流的严谨性与可靠性具有显著影响力。

当前挑战

SciCiteVal数据集所针对的引用验证任务面临多重挑战：在领域问题层面，科学引用的语义复杂性使得模型需深入理解上下文逻辑与证据关联，而错误引用的细粒度分类（如扭曲类别）要求模型具备细微的语义差异识别能力；在构建过程中，人工标注需确保高度一致性，尤其是在系统扭曲原始引用以生成错误样本时，需平衡改动的最小化与语义的自然流畅性，同时无关引用的收集需跨越不同学科领域，并排除图表等非连续文本，以保证数据质量的代表性与纯净度。

常用场景

经典使用场景

在学术文献计量与信息检索领域，SciCiteVal数据集为引文验证任务提供了标准化的评估基准。该数据集通过人工标注将引文划分为正确、错误或不相关三类，并针对错误引文进一步细分子类别，以精确刻画引用的失真性质。其经典使用场景包括训练和评估自然语言处理模型，特别是基于文本分类的方法，用于自动检测科学论文中的引用准确性，从而支持学术诚信与文献质量监控。

衍生相关工作

基于SciCiteVal数据集，研究者已开展多项经典工作，例如开发基于零样本和少样本提示的大语言模型进行引文验证的基准测试。这些工作不仅扩展了引文分析的技术边界，还催生了更高效的自动化检测方法。同时，该数据集与QASA、CiteScreener等先前资源的关联，进一步促进了引文语义理解领域的模型比较与性能评估，为后续研究奠定了坚实基础。

数据集最近研究