jang1563/bio-constitution-rules
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/jang1563/bio-constitution-rules
下载链接
链接失效反馈官方服务:
资源简介:
Bio Constitution Rules — Synthetic Training Corpus是一个包含1,063条记录的标记训练语料库,用于生物双重用途内容分类。每条记录都带有双轨标签:生物特定的真实标签和通用的CBRN基线标签。39.3%的记录在这两个系统之间存在差异,这些是最有价值的训练示例,捕捉了生物特定规则独特编码的区别。数据集包含多个领域,如病毒学、毒理学、合成生物学等,每个领域都有特定的规则和记录数量。数据集还详细描述了记录的架构、标签类型、差异类别以及生成方法。
Bio Constitution Rules — Synthetic Training Corpus is a 1,063-record labeled training corpus for biological dual-use content classification, generated from 30 bio-domain constitutional rules. Each record carries dual-track labels: a bio-specific ground truth label and a generic CBRN baseline label. 39.3% of records diverge between the two systems — these are the highest-value training examples, capturing the distinctions that bio-specific rules uniquely encode. The dataset covers multiple domains such as virology, toxicology, synthetic biology, etc., each with specific rules and record counts. It also details the record schema, label types, divergence categories, and generation methodology.
提供机构:
jang1563
搜集汇总
数据集介绍

构建方式
该数据集基于30条生物学领域宪法规则,通过系统性方法构建而成。首先,从规则文件中提取142条种子查询,涵盖合法、可疑及边界三类场景。随后,利用语言模型对每条种子生成6至8个释义变体,引入角色、具体性和目的框架等维度变化,并经质量门控过滤后获得956条有效改写。种子查询的生物学标签直接继承自其对应规则的严重性层级,而通用标签则由一套基于正则表达式的基线规则生成。最终,将两类标签不一致的记录抽取为分歧样本,并排除35条模糊记录,形成包含1063条标注的训练语料库。
特点
该数据集最显著的特点在于其双轨标签体系,每条记录同时携带生物学特异性标签与通用化学生物放射性核武器基线标签,二者分歧率达39.3%,精准捕捉了生物学规则独特识别的微妙边界。数据集覆盖病毒学、毒理学、合成生物学、基因组学、病原生物学及双重用途化学六大领域,每条查询附带领域归属、查询类型、严重性层级及分歧类别等丰富元信息。23种分歧类别详实刻画了通用规则难以把握的生物学特定区分,如回溯性与前瞻性分析、机制研究与合成请求等,为训练高精度分类器提供了关键样本。
使用方法
该数据集专为生物双重用途内容分类任务而设计,支持多种使用范式。用户可直接加载JSON格式的完整训练集或仅含418条高价值分歧样本的子集,通过领域、查询类型或分歧类型等字段进行灵活筛选。数据集兼容Hugging Face datasets库,便于快速集成至深度学习流程。其典型应用场景包括训练宪法分类器、为上下文学习分类器提供少样本检索上下文、微调基础模型以掌握生物安全决策边界,以及评估通用与生物学特异性规则质量。42条保留测试集上的基准测试显示,结合规则检索的模型可达到100%准确率。
背景与挑战
背景概述
生物安全领域的大语言模型应用正面临前所未有的双重困境:一方面需要防止模型输出可能被滥用于生物武器研发或生物恐怖主义的高风险信息,另一方面又必须保护合法的科学研究不受过度限制。在此背景下,由研究机构于2025年底创建的Bio Constitution Rules数据集应运而生,它以30条生物领域宪法规则为基础,系统性地生成了1063条标注记录,专门用于训练和评估模型在生物双重用途内容分类任务中的表现。该数据集由Juho Jang等人开发,核心研究问题在于如何超越通用CBRN(化学、生物、放射性和核)规则在生物安全判定上的局限性,通过构建领域特化的规则体系和标注数据,使模型能够精准识别应拒绝的高风险生物请求与应协助的合法研究询问之间的微妙边界。该数据集在负责任AI和内容审核领域具有开创性影响,其独特的双轨标注机制与39.3%的高分歧率为后续研究提供了宝贵的教学信号。
当前挑战
该数据集所解决的领域核心挑战在于,通用CBRN安全规则在生物双重用途内容分类中存在严重的敏感性不足与过度拦截并存的困境。研究发现通用规则在边界性查询(Type C)上完全失效(准确率为0/18),既无法捕获应拒绝的隐蔽高风险请求(FN率高达153例),又会过度拒绝合法科研询问(FP率达265例),凸显了生物领域知识特化对于安全判定不可或缺性。在构建过程中,挑战体现在如何从八个生物子领域(病毒学、毒理学、合成生物学、基因组学等)中系统提取规则,并设计涵盖合法查询、关切查询与边缘案例的三类样本,以模拟真实科研咨询的复杂性。此外,如何通过种子查询的多样化改写并在保留生物标签继承的同时自动生成通用标签,最终提取出23种精细分歧类别,构成了数据集创建的技术难点。
常用场景
经典使用场景
在生物安全与负责任人工智能交叉领域,bio-constitution-rules数据集被广泛用于训练和评估面向生物双重用途内容的文本分类模型。该数据集包含1063条标注样本,每条样本均携带生物领域专属标签与通用CBRN基线标签,其中39.3%的样本呈现标签分歧,构成模型需重点辨别的核心训练案例。研究者常将其作为细粒度生物安全内容审核的分类器训练语料,尤其适用于需要区分合法科研请求与潜在生物安全风险的场景,例如鉴别病毒学中的回顾性分析与前瞻性增强设计、基因组学中宏基因组测序与活病毒分离之间的边界案例。
实际应用
在实际部署中,bio-constitution-rules数据集被用于构建生物安全内容审核系统的核心模块,涵盖科研机构内部的知识库过滤、学术论文预审、以及大型语言模型在回答生物学问题时的安全约束。例如,该系统可有效辨别关于新冠病毒实验室操作的合法生物安全咨询与潜在增强病毒传播能力的越界请求,以及在抗生素耐药性监测与故意耐药性工程之间做出精准区分。此外,该数据集还服务于监管合规场景,协助研究人员基于NSABB DURC框架、WHO实验室生物安全手册等国际规范,自动评估科研提案或出版物中的生物安全风险等级。
衍生相关工作
基于bio-constitution-rules数据集,研究者相继开展了多项经典工作。在模型层面,有工作使用该数据集进行少样本检索增强分类,在42条保留测试集上实现了100%的准确率,完全恢复了通用基线的所有假阳性和假阴性错误。另有研究利用该数据集对gpt-4o-mini进行微调,达到97.6%的整体准确率。在方法层面,该数据集催生了基于宪法规则的生物安全决策边界分析方法论,以及23种分歧类别的系统化分类体系。此外,该数据集作为标准化基准,推动了生物领域CBRN规则质量评估与通用规则优化方向的研究进展。
以上内容由遇见数据集搜集并总结生成



