dual-use-papers

Hugging Face2026-02-19 更新2026-02-20 收录

下载链接：

https://huggingface.co/datasets/AE-data/dual-use-papers

下载链接

链接失效反馈

官方服务：

资源简介：

Dual-Use Papers 是一个经过整理的学术论文集合，这些论文被转换为 markdown 格式，并按主题类别进行标注。该数据集专为研究大型语言模型（LLMs）中的双重用途能力而构建。数据集包含 415,536 行数据，主要分为四个类别：biology（生物学）、cyber（网络）、nuclear（核能）和 other（其他）。数据来源包括 Europe PMC（开放获取的生物医学和生命科学文献）、arXiv（物理学、数学、计算机科学等领域的预印本）和 OSTI（美国能源部的科技信息办公室的技术报告和期刊文章）。每篇论文包含以下字段：category（主题标签）、source（来源标签，如 europe-pmc、arxiv_cs.CR、osti）、url（原始 PDF 的 URL）和 text（markdown 格式的全文）。数据集经过严格的收集和处理流程，包括通过特定来源的 API 收集元数据、下载 PDF 并转换为 markdown 格式。该数据集仅用于安全和科学研究目的。

创建时间：

2026-02-10

搜集汇总

数据集介绍

构建方式

在学术文献分析领域，Dual-Use Papers数据集通过系统化的流程构建而成。其数据源自三个权威开放获取平台：欧洲生物医学文献库Europe PMC、预印本服务器arXiv以及美国能源部科技信息办公室OSTI。首先利用各平台专用API收集元数据，随后下载对应PDF文档，并借助GROBID工具将文献内容转换为结构化Markdown格式。特别值得注意的是，对于arXiv中非双重用途类别的论文，进行了随机抽样与数量平衡处理，使其规模与双重用途类别相匹配，最终形成包含41.5万条记录的多源学术文本集合。

特点

该数据集的核心特征体现在其精心设计的分类体系与来源构成上。所有文献均被标注为四大主题类别：生物学、网络安全、核技术及其他领域，其中前三个类别专门针对具有双重用途潜力的研究方向。数据分布呈现显著的专业侧重，生物学文献占比最高，核技术与网络安全领域文献共同构成双重用途研究的主体。来源方面融合了生物医学、物理计算及能源技术等多学科文献，且所有文本均经过统一格式转换，保留了完整的学术内容与原始元数据链接，为跨领域文本分析提供了标准化基础。

使用方法

研究人员可通过Hugging Face数据集库直接加载该资源进行探索。使用标准接口加载数据集后，即可访问包含类别标签、来源标识、原文链接及Markdown格式全文的结构化数据。典型应用场景包括训练文本分类模型以识别不同学科文献，生成特定领域学术文本，或开展大型语言模型双重用途能力的安全研究。数据集设计明确强调仅限安全与科研用途，使用者应遵循相关伦理规范，利用其多维度标注信息深入探究学术文本中的知识模式与潜在风险。

背景与挑战

背景概述

在人工智能安全研究领域，识别和评估大型语言模型可能产生的双重用途风险已成为一项紧迫课题。Dual-Use Papers数据集应运而生，由相关研究机构于近年构建，旨在系统性地收集并标注涉及生物、核能及网络安全等敏感主题的学术文献。该数据集汇聚了来自Europe PMC、arXiv及OSTI等权威开放获取平台的逾41万篇论文，通过精确的类别映射，为探究模型在生成或处理敏感科学知识时可能引发的安全与伦理问题提供了结构化语料基础。其核心研究问题聚焦于如何通过模块化预训练与梯度路由等技术，有效监控与引导模型在双重用途场景下的能力演化，从而推动可解释、可控的人工智能系统发展，对AI治理与安全对齐研究产生了实质性影响。

当前挑战

该数据集致力于应对人工智能双重用途能力识别与评估这一复杂挑战。具体而言，其旨在解决模型在生物、核能与网络安全等高度敏感领域可能无意识泄露或滥用专业知识的问题，这要求模型具备区分常规知识与敏感信息的能力。在构建过程中，挑战主要源于数据源的异构性与标注的精确性：需从多个独立平台（如Europe PMC、arXiv、OSTI）整合格式各异的学术文献，并确保PDF至Markdown的转换质量；同时，定义并准确映射“双重用途”类别涉及细致的领域判断，例如需从广泛的arXiv学科中精确筛选核物理与网络安全相关子类，并对“其他”类别进行平衡采样以避免数据倾斜，这些步骤均需严谨的领域知识与自动化处理流程的协同。

常用场景

经典使用场景

在人工智能安全与伦理研究领域，Dual-Use Papers数据集为探索大型语言模型的双重用途能力提供了关键资源。该数据集通过整合生物学、核科学与网络安全等敏感主题的学术文献，支持研究者对模型在生成或处理潜在危险知识时的行为进行分析。典型应用包括训练分类器以识别文本中的双重用途内容，或评估模型在特定领域知识上的安全边界，从而深化对AI系统风险的理解。

衍生相关工作

基于此数据集，研究社区已衍生出若干经典工作，例如探索梯度路由与模块化预训练技术，以隔离模型中的敏感知识模块。相关研究聚焦于构建能够区分并控制双重用途内容生成的架构，从而在保持模型通用能力的同时降低滥用风险。这些工作推动了AI安全领域在可解释性、可控性方面的算法进展，并催生了新的评估基准与安全框架。

数据集最近研究