NSF-SCIFY

Name: NSF-SCIFY
Creator: 美国宾夕法尼亚大学
Published: 2025-03-12 00:35:08
License: 暂无描述

arXiv2025-03-12 更新2025-03-13 收录

下载链接：

https://huggingface.co/darpa-scify

下载链接

链接失效反馈

官方服务：

资源简介：

NSF-SCIFY是一个来源于美国国家科学基金会奖项数据库的大型科学声明数据集，包含280万个科学声明，跨越了所有科学和数学学科。该数据集通过收集NSF的奖项摘要，并利用大型语言模型进行科学声明和研究提案的提取，旨在为科学声明验证和元科学研究提供新的机会。

NSF-SCIFY is a large-scale scientific statement dataset derived from the United States National Science Foundation (NSF) awards database. It contains 2.8 million scientific statements spanning all scientific and mathematical disciplines. This dataset is constructed by collecting NSF award abstracts and extracting scientific statements and research proposals using large language models (LLMs), aiming to provide new opportunities for scientific statement validation and metascientific research.

提供机构：

美国宾夕法尼亚大学

创建时间：

2025-03-12

搜集汇总

数据集介绍

构建方式

NSF-SCIFY数据集的构建方式主要依托于美国国家科学基金会（NSF）的奖项数据库，该数据库包含了超过40万个跨越五十年的资助摘要。数据集的构建过程涉及从NSF奖项数据库中下载并解析XML格式的数据，然后从这些摘要中提取科学声明和调查提案。这一过程使用了Anthropic的Claude-3.5模型进行零样本提示，以识别摘要中的可验证声明和前瞻性调查提案。构建过程还包括对技术摘要和非技术摘要的区分，以及与已发表论文的关联。

特点

NSF-SCIFY数据集的特点在于其规模庞大，涵盖了从1970年到2024年间的412,155个资助摘要，估计包含280万个科学声明，覆盖了所有STEM学科。数据集的独特之处在于它利用了资助摘要，这些摘要记录了研究生命周期早期阶段的声明，为研究提供了一个独特的视角。此外，数据集还区分了现有的科学声明和研究提案，提供了关于研究意图的宝贵信息。NSF-SCIFY-MATSCI子集专注于材料科学领域，包含16,031个资助摘要，114,000个科学声明和145,000个调查提案。

使用方法

使用NSF-SCIFY数据集的方法包括科学声明提取、调查提案提取以及技术摘要向非技术摘要的生成。数据集可用于评估自然语言处理模型在这些任务上的性能。此外，数据集还可以用于研究科学声明的验证、科学发现的跟踪以及元科学研究。为了方便研究，所有数据集、训练模型和评估代码都已公开发布，供研究人员和商业用途。

背景与挑战

背景概述

NSF-SCIFY数据集是一项从美国国家科学基金会（NSF）奖项数据库中提取的科学断言提取大规模数据集。该数据集包含超过40万个资助摘要，跨越了五十年的时间。与以往依赖已发表文献的数据集不同，NSF-SCIFY利用资助摘要的独特优势，即在出版生效之前，它们捕捉到研究生命周期的早期阶段的断言。此外，该数据集还引入了一项新任务，以区分现有的科学断言和提案中的研究意向。通过零样本提示，使用前沿大型语言模型，从16K个材料科学领域的资助摘要中联合提取了114K个科学断言和145K个调查提案，创建了一个名为NSF-SCIFY-MATSCI的专注子集。该数据集用于评估三个关键任务：技术到非技术摘要生成、科学断言提取和调查提案提取。NSF-SCIFY是目前为止最大的科学断言数据集，包含了NSF资助的所有STEM学科的大约280万个断言，为断言验证和元科学研究开辟了新的机会。

当前挑战

NSF-SCIFY数据集面临的主要挑战包括：1) 从资助摘要中提取科学断言和调查提案的准确性；2) 在处理大规模数据集时保持性能和效率；3) 开发用于评估断言和提案提取质量的鲁棒评估指标。此外，数据集的构建过程中也遇到了一些挑战，例如，如何从NSF奖项数据库中收集和解析数据，以及如何利用前沿大型语言模型进行断言和提案的联合提取。

常用场景

经典使用场景

NSF-SCIFY 数据集的主要应用场景是科学主张的提取和分析。它提供了超过40万个涵盖过去五十年历史的NSF奖励摘要，这些摘要涵盖了广泛的科学和数学领域。该数据集的独特之处在于它捕获了研究生命周期的早期阶段的主张，即在出版物发表之前。这使得NSF-SCIFY成为科学主张验证和元科学研究的重要资源。

衍生相关工作

NSF-SCIFY 数据集衍生了许多相关的经典工作，包括 SciFACT 数据集，它是从生物医学领域的科学论文中提取的科学主张。此外，NSF-SCIFY 数据集还启发了其他研究，例如从事实核查网站和新闻文章中提取科学主张的研究。

数据集最近研究