allenai/scifact|科学事实验证数据集|自然语言处理数据集

hugging_face2023-12-21 更新2024-03-04 收录

科学事实验证

自然语言处理

下载链接：

https://hf-mirror.com/datasets/allenai/scifact

下载链接

链接失效反馈

资源简介：

SciFact数据集包含1.4K专家撰写的科学声明，这些声明与包含证据的摘要配对，并附有标签和理由。该数据集专为文本分类任务设计，特别是事实核查。数据集是单语的，包含英语内容，并由专家精心策划。数据集包括两个主要配置：corpus和claims，每个配置都有特定的特征和数据分割。

提供机构：

allenai

原始信息汇总

数据集概述

数据集名称

名称: SciFact

语言

语言: 英语 (en)

许可证

许可证: CC BY-NC 2.0

多语言性

多语言性: 单语种

大小分类

大小分类: 1K<n<10K

源数据集

源数据集: 原始数据

任务类别

任务类别: 文本分类

任务ID

任务ID: fact-checking

论文代码ID

论文代码ID: scifact

数据集结构

配置名称

配置名称: corpus 和 claims

数据特征

corpus

doc_id: int32
title: string
abstract: sequence of string
structured: bool

claims

id: int32
claim: string
evidence_doc_id: string
evidence_label: string
evidence_sentences: sequence of int32
cited_doc_ids: sequence of int32

数据分割

corpus

train: 5183 examples, 7993572 bytes

claims

train: 1261 examples, 168627 bytes
validation: 450 examples, 60360 bytes
test: 300 examples, 33625 bytes

下载与数据集大小

下载大小: 3115079 bytes
数据集大小: corpus 7993572 bytes, claims 262612 bytes

数据集创建

许可证信息

许可证: CC BY-NC 2.0

引用信息

@inproceedings{wadden-etal-2020-fact, title = "Fact or Fiction: Verifying Scientific Claims", author = "Wadden, David and Lin, Shanchuan and Lo, Kyle and Wang, Lucy Lu and van Zuylen, Madeleine and Cohan, Arman and Hajishirzi, Hannaneh", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2020.emnlp-main.609", doi = "10.18653/v1/2020.emnlp-main.609", pages = "7534--7550", }

AI搜集汇总

数据集介绍

构建方式

SciFact数据集由专家生成的1.4K科学声明与包含证据的摘要配对构建而成。数据集的构建过程涉及从原始科学文献中提取摘要，并由专家对这些摘要进行标注，以确定其是否支持特定的科学声明。标注过程中，专家不仅提供了支持或不支持的标签，还详细标注了支持声明的具体句子。

特点

SciFact数据集的特点在于其专注于科学事实的验证任务，提供了丰富的科学声明与证据对。数据集中的每个声明都附有详细的证据摘要，并且标注了支持或不支持的标签，以及具体的证据句子。这种结构化的数据形式使得SciFact成为科学事实验证领域的宝贵资源。

使用方法

SciFact数据集可用于训练和评估科学事实验证模型。用户可以通过加载数据集，访问其中的声明和对应的证据摘要，进行模型的训练和测试。数据集提供了训练、验证和测试三个分割，便于用户进行交叉验证和模型性能评估。此外，数据集的结构化格式使得用户可以方便地提取特定字段进行进一步分析。

背景与挑战

背景概述

SciFact数据集由Allen Institute for AI于2020年推出，旨在解决科学文献中的事实核查问题。该数据集包含1400个由专家撰写的科学声明，并配以包含证据的摘要，标注了标签和理由。该数据集的核心研究问题是通过自然语言处理技术验证科学声明的真实性，从而推动科学文献的可信度评估。SciFact的发布为科学事实核查领域提供了重要的基准数据，促进了相关算法和模型的发展。

当前挑战

SciFact数据集面临的挑战主要体现在两个方面。首先，科学文献中的声明通常涉及复杂的专业术语和逻辑推理，如何准确理解并验证这些声明是一个巨大的挑战。其次，数据集的构建过程中，专家标注的准确性和一致性至关重要，但由于科学领域的多样性和复杂性，确保标注的高质量也面临困难。此外，数据集的规模相对较小，可能限制了模型在更广泛场景下的泛化能力。

常用场景

经典使用场景

SciFact数据集在科学文献验证领域具有重要应用，其经典使用场景包括对科学声明进行事实核查。通过将专家撰写的科学声明与包含证据的摘要进行配对，并结合标注的标签和理由，该数据集为自然语言处理模型提供了丰富的训练和测试资源，特别是在文本分类和事实核查任务中表现突出。

实际应用

在实际应用中，SciFact数据集被广泛用于构建自动化科学事实核查系统，帮助科研人员、期刊编辑和科学传播者快速验证科学声明的真实性。此外，该数据集还可用于开发智能文献检索工具，帮助用户在海量科学文献中快速定位相关证据，提升科研效率。

衍生相关工作

基于SciFact数据集，许多经典研究工作得以展开，例如开发基于深度学习的科学声明验证模型、构建科学文献检索系统以及探索多模态科学事实核查方法。这些工作不仅推动了自然语言处理领域的发展，也为科学信息的可信传播提供了技术支撑。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2024）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2024.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度，中国近海台风路径数据集，包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据，经过处理整合后形成文件，如使用csv文件需使用文本编辑器打开浏览，否则会出现乱码，如要使用excel查看数据，请使用xlsx的格式。

国家海洋科学数据中心收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集：SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV，以及由国防科技大学团队开发的数据集，包括模拟陆基和太空基数据，以及真实手动标注的太空基数据。数据集包含具有各种目标形状（如点目标、斑点目标、扩展目标）、波长（如近红外、短波红外和热红外）、图像分辨率（如256、512、1024、3200等）的图像，以及不同的成像系统（如陆基、空基和太空基成像系统）。

github 收录

UCF-Crime

UCF-犯罪数据集是128小时视频的新型大规模第一个数据集。它包含1900年长而未修剪的真实世界监控视频，其中包含13个现实异常，包括虐待，逮捕，纵火，殴打，道路交通事故，入室盗窃，爆炸，战斗，抢劫，射击，偷窃，入店行窃和故意破坏。之所以选择这些异常，是因为它们对公共安全有重大影响。这个数据集可以用于两个任务。首先，考虑一组中的所有异常和另一组中的所有正常活动的一般异常检测。第二，用于识别13个异常活动中的每一个。

OpenDataLab 收录

Chinese Tea Sprout Dataset

On the basis of autonomous mobile tea picking robot, aiming at the shortcomings of traditional tea bud identification methods such as slow speed, low accuracy and poor adaptability, as well as people's demand for high-quality tea, the research and experiment of tea bud quality classification recognition based on YOLOv5 were carried out. Through the construction of the autonomous mobile tea picking robot visual recognition system, the data set was constructed, which mainly included tea image acquisition, enhancement and annotation. YOLOv5 and SSD target detection algorithms were used to conduct model training experiments, and the experimental data was analyzed. The experimental results show that the average accuracy of YOLOv5 target detection algorithm is high.The analysis of experimental data shows that the YOLOv5 target detection algorithm has a good effect on classification identification of tea buds, which can provide technical support and theoretical guidance for classification identification of tea buds and intelligent picking.

Mendeley Data 收录