SciNLI
收藏github2023-10-17 更新2024-05-31 收录
下载链接:
https://github.com/msadat3/SciNLI
下载链接
链接失效反馈官方服务:
资源简介:
SciNLI是一个专为自然语言推理设计的大型数据集,包含107,412个从NLP和计算语言学领域的学术论文中提取的句子对。该数据集特别适合作为评估科学领域自然语言理解模型的基准。
SciNLI is a large-scale dataset specifically designed for natural language inference, comprising 107,412 sentence pairs extracted from academic papers in the fields of NLP and computational linguistics. This dataset is particularly suitable as a benchmark for evaluating natural language understanding models in the scientific domain.
创建时间:
2022-03-12
原始信息汇总
数据集概述
数据集名称
SciNLI: A Corpus for Natural Language Inference on Scientific Text
数据集来源
数据集SciNLI是从ACL anthology中关于NLP和计算语言学的论文中提取的,涵盖了2000年至2019年发表的论文作为训练集,2020年发表的论文作为测试和开发集。
数据集内容
- 训练集:包含101,412个自动标注的句子对。
- 测试集:包含4,000个人工标注的句子对。
- 开发集:包含2,000个人工标注的句子对。
- 总计:107,412个句子对。
数据集文件
-
CSV格式:
train.csv:训练数据。test.csv:测试数据。dev.csv:开发数据。 每文件包含三列:sentence1(前提)、sentence2(假设)和label(标签)。
-
JSONL格式:
train.jsonl:训练数据。test.jsonl:测试数据。dev.jsonl:开发数据。 每文件的每一行是一个JSON字典,包含sentence1、sentence2和label键。
数据集用途
SciNLI数据集旨在作为评估科学领域自然语言理解模型的基准,特别适用于那些处理科学文本的模型。
数据集下载
数据集可从此处下载。
数据集许可证
SciNLI数据集遵循CC BY-SA 4.0许可证。
联系方式
如有任何疑问,请联系msadat3@uic.edu。
搜集汇总
数据集介绍

构建方式
SciNLI数据集的构建基于自然语言推理(NLI)任务,专注于科学文本的理解。该数据集从2000年至2019年发表的ACL论文集(自然语言处理与计算语言学领域)中提取了107,412对句子对。训练集的句子对通过远距离监督方法进行标注,利用指示语义关系的连接短语进行自动标注,而测试集和开发集的句子对则通过人工标注以确保评估的准确性。这种混合标注策略既保证了数据规模,又确保了评估数据的可靠性。
特点
SciNLI数据集的特点在于其专注于科学文本的复杂性和形式化表达。与日常语言相比,科学文本在词汇和句子结构上具有显著差异,这使得SciNLI成为评估科学文本理解模型的理想基准。数据集的句子对涵盖了丰富的语义关系,且实验表明,SciNLI的分类难度高于现有的NLI数据集,最佳模型的Macro F1分数仅为78.18%,显示出模型性能提升的广阔空间。
使用方法
SciNLI数据集的使用方法包括训练和测试预训练语言模型。用户可通过提供的Python脚本对BERT、SciBERT、RoBERTa或XLNet等模型进行微调。脚本支持指定训练、测试和开发文件的路径,以及批量大小、最大句子长度、训练轮数等参数。数据集以CSV和JSONL格式提供,便于直接加载和处理。使用该数据集时,需引用相关论文,并遵循CC BY-SA 4.0许可协议。
背景与挑战
背景概述
SciNLI数据集由Mobashir Sadat和Cornelia Caragea于2022年提出,旨在解决自然语言推理(NLI)任务在科学文本领域的应用问题。该数据集包含107,412对句子,主要来源于2000年至2020年间发表在自然语言处理(NLP)和计算语言学领域的学术论文。SciNLI的构建填补了现有NLI数据集在科学文本领域的空白,为科学文本的自然语言理解(NLU)研究提供了重要的基准。实验表明,SciNLI的分类难度显著高于现有NLI数据集,最佳模型XLNet的宏F1得分仅为78.18%,显示出该领域仍有较大的改进空间。
当前挑战
SciNLI数据集面临的挑战主要体现在两个方面。首先,科学文本的复杂性和形式化语言使得NLI任务在科学领域的应用更具挑战性。科学文献中的词汇和句子结构与日常语言存在显著差异,导致模型在处理科学文本时表现不佳。其次,数据集的构建过程中,训练集的自动标注方法引入了潜在的噪声,尽管测试集和开发集通过人工标注确保了数据的准确性,但训练数据的噪声仍可能影响模型的训练效果。这些挑战要求研究者开发更具鲁棒性的模型,以应对科学文本的独特特性。
常用场景
经典使用场景
SciNLI数据集在自然语言推理(NLI)领域中被广泛用于评估模型在科学文本上的推理能力。由于科学文献中的语言结构和词汇与日常语言存在显著差异,SciNLI通过提供从计算语言学和自然语言处理领域的学术论文中提取的句子对,为研究人员提供了一个具有挑战性的基准。该数据集特别适用于测试模型在复杂科学语境下的语义理解能力,推动了科学文本理解模型的发展。
解决学术问题
SciNLI解决了现有NLI数据集在科学文本上的不足问题。传统NLI数据集主要基于日常语言,难以反映科学文献中的语言特点。SciNLI通过引入科学文本的句子对,填补了这一空白,为研究科学文本的自然语言理解提供了重要工具。实验表明,SciNLI的分类难度显著高于现有数据集,表明其在推动模型性能提升方面具有重要价值。
衍生相关工作
SciNLI的发布催生了一系列相关研究工作,特别是在科学文本的自然语言理解领域。基于SciNLI的研究不仅改进了预训练语言模型(如SciBERT和XLNet)在科学文本上的表现,还推动了针对科学文本的专用模型开发。此外,SciNLI还为跨领域NLI研究提供了新的视角,激发了更多关于科学文本语义推理的探索。
以上内容由遇见数据集搜集并总结生成



